'2025/09/30 글 목록

FlashAttention-3 (FA-3)

개요FlashAttention-3(FA-3)은 GPU에서 Transformer 모델의 어텐션 연산을 극한까지 최적화한 고성능 커널입니다. 기존의 FlashAttention 시리즈를 계승하여, 더 넓은 범위의 시나리오(예: Multi-query attention, grouped query attention 등)를 지원하며, 고속 처리와 낮은 메모리 사용량을 동시에 달성합니다. OpenAI, Meta, NVIDIA 등의 대형 LLM 연구에 필수적으로 적용되고 있으며, HuggingFace Transformers와도 완전하게 통합됩니다.1. 개념 및 정의항목설명정의FlashAttention-3는 GPU에서 어텐션 연산을 빠르게 수행하기 위한 CUDA 기반 커널입니다.목적Transformer 모델의 학습 속도 ..

Topic 00:00:13

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

ITPE * JackerLab

2025/09/30 1

티스토리툴바