728x90
반응형

메모리절감 2

FlashAttention-2

개요FlashAttention-2는 트랜스포머 기반 대규모 언어 모델(LLM)의 핵심 연산인 어텐션(Attention)을 메모리 효율적이고 빠르게 처리하기 위한 차세대 알고리즘입니다. 기존 FlashAttention의 속도 및 GPU 효율성 문제를 개선하면서, 다양한 시퀀스 길이 및 배치 구조에 대한 일반성을 확보하고, 학습 및 추론 성능을 모두 향상시키는 혁신적 어텐션 기법으로 주목받고 있습니다.1. 개념 및 정의FlashAttention-2는 어텐션 연산에서 메모리 접근을 최소화하고, 고속 버퍼 레벨에서 정확한 softmax 연산을 수행하여 연산 효율성을 극대화한 알고리즘입니다.기반 모델: 트랜스포머(Transformer) 아키텍처핵심 전략: 'tiling + recomputation + GPU-fr..

Topic 2025.05.22

AdaFactor Optimizer

개요AdaFactor는 구글에서 제안한 경량화된 최적화 알고리즘으로, Transformer 기반 모델의 학습 시 메모리 효율을 극대화하면서도 성능 저하 없이 빠른 수렴을 가능하게 하는 것이 특징입니다. 특히 Adam 옵티마이저의 대안으로 주목받으며 대규모 언어 모델 학습에 적합한 솔루션으로 각광받고 있습니다.1. 개념 및 정의 구분 내용 정의Adam의 변형으로, 두 번째 모멘텀(m²)을 분해하여 저장 메모리를 줄이는 최적화 알고리즘목적대규모 모델 학습 시 메모리 사용량을 최소화하고 성능 유지필요성GPU 메모리 제약으로 인한 병렬성/확장성 문제 해결2. 특징특징설명차별점저메모리 사용두 번째 모멘텀(m²)을 행/열로 분해하여 저장Adam 대비 메모리 사용량 대폭 절감스케일 불변성가중치 스케일과 무관하게 안..

Topic 2025.05.18
728x90
반응형