728x90
반응형

flashattention 3

Flash-Attention

개요Flash-Attention은 GPU의 메모리 계층 구조에 최적화된 방식으로 Transformer 모델의 어텐션(attention) 연산을 효율화하여, 연산 속도는 빠르게, 메모리 사용량은 줄이는 혁신적인 알고리즘이다. 본 글에서는 Flash-Attention의 기술적 구조, 성능 비교, 주요 활용 사례 및 도입 시 고려사항 등을 다루어 대규모 AI 모델의 학습과 추론 성능을 개선하고자 하는 개발자와 연구자에게 실질적인 인사이트를 제공한다.1. 개념 및 정의 항목 설명 정의Flash-Attention은 GPU의 shared memory와 register를 활용해 attention 계산 중간 값을 저장하지 않고 직접 출력하는 방식으로 구현된 최적화된 attention 알고리즘이다.목적Transform..

Topic 2025.06.30

FlashAttention-2

개요FlashAttention-2는 트랜스포머 기반 대규모 언어 모델(LLM)의 핵심 연산인 어텐션(Attention)을 메모리 효율적이고 빠르게 처리하기 위한 차세대 알고리즘입니다. 기존 FlashAttention의 속도 및 GPU 효율성 문제를 개선하면서, 다양한 시퀀스 길이 및 배치 구조에 대한 일반성을 확보하고, 학습 및 추론 성능을 모두 향상시키는 혁신적 어텐션 기법으로 주목받고 있습니다.1. 개념 및 정의FlashAttention-2는 어텐션 연산에서 메모리 접근을 최소화하고, 고속 버퍼 레벨에서 정확한 softmax 연산을 수행하여 연산 효율성을 극대화한 알고리즘입니다.기반 모델: 트랜스포머(Transformer) 아키텍처핵심 전략: 'tiling + recomputation + GPU-fr..

Topic 2025.05.22

FlashAttention

개요FlashAttention은 GPU 메모리 대역폭을 효율적으로 활용하여 Transformer 모델의 Attention 연산을 빠르고 정확하게 수행할 수 있도록 설계된 메모리 최적화 기반의 고속 어텐션 알고리즘입니다. 기존의 Softmax Attention 구현 방식은 쿼리-키-값 연산 시 많은 중간 메모리를 생성하고 이를 반복적으로 읽고 쓰는 비효율적인 구조였으나, FlashAttention은 이 과정을 최소화하여 큰 시퀀스 길이에서도 속도와 정확성을 유지할 수 있도록 합니다.1. 개념 및 정의 항목 설명 정의FlashAttention은 CUDA 기반 커널을 활용하여 attention score와 softmax 계산을 메모리 낭비 없이 수행하는 고속 알고리즘입니다.목적Transformer의 memo..

Topic 2025.05.16
728x90
반응형