개요Small-Scale Scaling Laws는 소형 언어 모델(SLM) 훈련에서 관측되는 학습 곡선, 손실 감소 패턴, 일반화 성능 등을 바탕으로, 모델 규모와 성능 간의 관계를 수학적 또는 경험적으로 예측하는 이론적 프레임워크입니다. 기존의 대규모 모델에 국한되던 Scaling Laws를 수천만~수억 파라미터 범위에 최적화하여, 자원 효율적인 LLM 설계와 실험 설계에 중요한 통찰을 제공합니다.1. 개념 및 정의Small-Scale Scaling Laws는 상대적으로 작은 파라미터 수와 데이터 양으로 훈련된 모델에서 관찰된 경향을 기반으로, 더 큰 모델의 성능 또는 한계를 예측하려는 확률적·통계적 방법론입니다.핵심 정의: 손실 L(N, D, C)는 파라미터 수(N), 데이터 수(D), 계산량(C)에..