
개요AdaFactor는 구글에서 제안한 경량화된 최적화 알고리즘으로, Transformer 기반 모델의 학습 시 메모리 효율을 극대화하면서도 성능 저하 없이 빠른 수렴을 가능하게 하는 것이 특징입니다. 특히 Adam 옵티마이저의 대안으로 주목받으며 대규모 언어 모델 학습에 적합한 솔루션으로 각광받고 있습니다.1. 개념 및 정의 구분 내용 정의Adam의 변형으로, 두 번째 모멘텀(m²)을 분해하여 저장 메모리를 줄이는 최적화 알고리즘목적대규모 모델 학습 시 메모리 사용량을 최소화하고 성능 유지필요성GPU 메모리 제약으로 인한 병렬성/확장성 문제 해결2. 특징특징설명차별점저메모리 사용두 번째 모멘텀(m²)을 행/열로 분해하여 저장Adam 대비 메모리 사용량 대폭 절감스케일 불변성가중치 스케일과 무관하게 안..