개요FlashAttention-2는 트랜스포머 기반 대규모 언어 모델(LLM)의 핵심 연산인 어텐션(Attention)을 메모리 효율적이고 빠르게 처리하기 위한 차세대 알고리즘입니다. 기존 FlashAttention의 속도 및 GPU 효율성 문제를 개선하면서, 다양한 시퀀스 길이 및 배치 구조에 대한 일반성을 확보하고, 학습 및 추론 성능을 모두 향상시키는 혁신적 어텐션 기법으로 주목받고 있습니다.1. 개념 및 정의FlashAttention-2는 어텐션 연산에서 메모리 접근을 최소화하고, 고속 버퍼 레벨에서 정확한 softmax 연산을 수행하여 연산 효율성을 극대화한 알고리즘입니다.기반 모델: 트랜스포머(Transformer) 아키텍처핵심 전략: 'tiling + recomputation + GPU-fr..