728x90
반응형

triton 2

FlashAttention-3 (FA-3)

개요FlashAttention-3(FA-3)은 GPU에서 Transformer 모델의 어텐션 연산을 극한까지 최적화한 고성능 커널입니다. 기존의 FlashAttention 시리즈를 계승하여, 더 넓은 범위의 시나리오(예: Multi-query attention, grouped query attention 등)를 지원하며, 고속 처리와 낮은 메모리 사용량을 동시에 달성합니다. OpenAI, Meta, NVIDIA 등의 대형 LLM 연구에 필수적으로 적용되고 있으며, HuggingFace Transformers와도 완전하게 통합됩니다.1. 개념 및 정의항목설명정의FlashAttention-3는 GPU에서 어텐션 연산을 빠르게 수행하기 위한 CUDA 기반 커널입니다.목적Transformer 모델의 학습 속도 ..

Topic 2025.09.30

Triton Inference Server

개요AI 모델을 실제 서비스에 적용하려면, 학습 이후 단계인 **추론(Inference)**을 빠르고 안정적으로 처리할 수 있어야 합니다. 이를 위한 대표적 오픈소스 플랫폼이 NVIDIA의 Triton Inference Server입니다. 다양한 프레임워크 모델을 일관된 방식으로 배포하고, GPU 및 CPU 리소스를 효율적으로 활용하며, 대규모 AI 추론 워크로드를 안정적으로 처리할 수 있는 서버입니다. 본 글에서는 Triton Inference Server의 구조, 기능, 장점 및 적용 사례를 상세히 살펴봅니다.1. 개념 및 정의Triton Inference Server는 NVIDIA가 개발한 범용 AI 추론 서버로, 다양한 딥러닝 프레임워크(PyTorch, TensorFlow, ONNX 등) 기반의 ..

Topic 2025.07.16
728x90
반응형