728x90
반응형

2026/02/13 2

Continuous Batching

개요Continuous Batching은 대규모 언어 모델(LLM) 추론에서 사용자 요청을 **고정된 타임슬롯(batch interval)**이 아닌, 실시간으로 수신되는 순서에 따라 동적으로 묶어 처리하는 배치 전략입니다. 이를 통해 응답 지연(latency)은 줄이고 GPU 활용률은 높이며, 특히 대화형 AI, AI 서비스 API 서버에서 효율적인 추론 처리를 가능하게 합니다. vLLM, TGI, TensorRT-LLM 등에서 적용되는 최신 배치 기법입니다.1. 개념 및 정의 항목 내용 비고 정의LLM 추론 시 요청을 고정 시간 기준 없이 지속적으로 batch로 구성하는 처리 방식streaming inference와 함께 사용목적latency와 throughput의 동시 개선응답 지연 감소 + G..

Topic 13:09:25

PagedOptim

개요PagedOptim은 대규모 언어 모델(LLM)의 파인튜닝/훈련 과정에서 GPU 메모리를 효율적으로 활용하기 위한 페이징 기반 옵티마이저 구조를 갖춘 학습 최적화 프레임워크입니다. 기존 옵티마이저(Adam, AdamW 등)는 파라미터와 옵티마이저 상태(state)를 모두 GPU 메모리에 올려야 했지만, PagedOptim은 **옵티마이저 상태를 페이지 단위로 GPU-CPU/NVMe 간에 이동(페이징)**하여, 메모리 초과 없이 초대형 모델 훈련을 가능하게 합니다.1. 개념 및 정의 항목 내용 비고 정의옵티마이저 상태를 페이지 단위로 관리하며 GPU-CPU 간 페이징을 수행하는 옵티마이저 계층DeepSpeed/Colossal-AI 기반 구현 예 존재목적GPU 메모리 한계를 넘어 대규모 모델 훈련 가..

Topic 06:08:21
728x90
반응형