728x90
반응형

pagedattention 3

FlashAttention-3 (FA-3)

개요FlashAttention-3(FA-3)은 GPU에서 Transformer 모델의 어텐션 연산을 극한까지 최적화한 고성능 커널입니다. 기존의 FlashAttention 시리즈를 계승하여, 더 넓은 범위의 시나리오(예: Multi-query attention, grouped query attention 등)를 지원하며, 고속 처리와 낮은 메모리 사용량을 동시에 달성합니다. OpenAI, Meta, NVIDIA 등의 대형 LLM 연구에 필수적으로 적용되고 있으며, HuggingFace Transformers와도 완전하게 통합됩니다.1. 개념 및 정의항목설명정의FlashAttention-3는 GPU에서 어텐션 연산을 빠르게 수행하기 위한 CUDA 기반 커널입니다.목적Transformer 모델의 학습 속도 ..

Topic 2025.09.30

PagedAttention

개요대규모 언어 모델(LLM, Large Language Model)의 성능은 빠르게 발전하고 있지만, 추론 시 필요한 메모리와 연산 자원은 여전히 큰 부담으로 작용합니다. 특히 긴 컨텍스트를 처리할 때 어텐션(attention) 메커니즘의 **KV-Cache(Key-Value Cache)**가 차지하는 메모리 사용량은 병목이 됩니다. 이를 해결하기 위한 혁신적 접근이 바로 PagedAttention입니다.1. 개념 및 정의PagedAttention은 KV-Cache를 페이지 단위로 관리하여 GPU 메모리와 CPU 메모리를 효율적으로 사용하는 어텐션 최적화 기법입니다. 운영체제의 가상 메모리 페이징 기법에서 착안하여, GPU 고속 메모리와 CPU 대용량 메모리 간의 동적 교환을 가능하게 합니다.주요 목적..

Topic 2025.09.15

vLLM

개요vLLM은 대규모 언어 모델(LLM)의 실시간 추론 성능을 최적화하기 위해 설계된 오픈소스 추론 엔진입니다. Hugging Face Transformers 기반 모델을 중심으로 빠른 응답, 높은 GPU 활용률, 비동기 텍스트 스트리밍, 다중 사용자 요청 병렬 처리 등을 지원하며, 특히 Serve-ready LLM 시스템 구축에 강력한 기반을 제공합니다.이 글에서는 vLLM의 구조, 핵심 기술, 활용 사례 등을 통해 LLM 인프라스트럭처의 추론 효율성과 비용 최적화 전략을 소개합니다.1. 개념 및 정의 항목 설명 정의vLLM은 LLM 기반 모델을 위한 고성능 추론 엔진으로, 빠른 응답성과 GPU 자원 최적화를 지향합니다.목적다양한 사용자 요청을 빠르게 처리하며, GPU 활용률을 극대화한 대규모 추론 ..

Topic 2025.09.07
728x90
반응형