728x90
반응형

딥러닝추론 2

PagedAttention

개요대규모 언어 모델(LLM, Large Language Model)의 성능은 빠르게 발전하고 있지만, 추론 시 필요한 메모리와 연산 자원은 여전히 큰 부담으로 작용합니다. 특히 긴 컨텍스트를 처리할 때 어텐션(attention) 메커니즘의 **KV-Cache(Key-Value Cache)**가 차지하는 메모리 사용량은 병목이 됩니다. 이를 해결하기 위한 혁신적 접근이 바로 PagedAttention입니다.1. 개념 및 정의PagedAttention은 KV-Cache를 페이지 단위로 관리하여 GPU 메모리와 CPU 메모리를 효율적으로 사용하는 어텐션 최적화 기법입니다. 운영체제의 가상 메모리 페이징 기법에서 착안하여, GPU 고속 메모리와 CPU 대용량 메모리 간의 동적 교환을 가능하게 합니다.주요 목적..

Topic 2025.09.15

추론 가속기(Inference Accelerator)

개요추론 가속기(Inference Accelerator)는 훈련된 인공지능(AI) 모델의 추론(inference) 과정을 빠르고 효율적으로 실행하기 위해 설계된 특수 하드웨어 장치다. 특히 대규모 모델과 실시간 응답이 요구되는 애플리케이션(챗봇, 자율주행, 음성인식 등)에서 필수적인 컴퓨팅 자원으로, GPU, TPU, NPU, FPGA 등 다양한 형태로 구현된다.1. 개념 및 정의추론 가속기는 머신러닝 모델이 입력을 받아 출력을 생성하는 ‘추론(inference)’ 단계를 최적화하여 성능과 에너지 효율을 극대화하는 데 특화된 연산 장치이다.목적: 지연 시간(latency) 최소화, 처리량(throughput) 극대화대상 환경: 엣지 컴퓨팅, 모바일 디바이스, 데이터센터, 자율 시스템 등차이점: 훈련(tr..

Topic 2025.04.27
728x90
반응형