728x90
반응형

gpu 최적화 4

DeepSpeed ZeRO-3

개요DeepSpeed ZeRO-3(Zero Redundancy Optimizer Stage 3)는 초대규모 언어 모델 학습 시 발생하는 메모리 병목을 극복하기 위한 Microsoft의 DeepSpeed 프레임워크 구성 요소입니다. 모델 파라미터, 옵티마이저 상태, 그래디언트를 모두 분산 저장하여 GPU 메모리 사용을 획기적으로 줄이고, 100B+ 파라미터 모델의 학습을 단일 또는 소수 GPU 환경에서도 가능하게 만듭니다.이 글에서는 ZeRO-3의 구조, 작동 방식, 핵심 기술, 장점 및 실무 적용 전략을 살펴봅니다.1. 개념 및 정의 항목 설명 정의ZeRO-3는 학습 시 모든 파라미터 관련 메타정보를 GPU 간 분산 저장하여 메모리 중복을 제거하는 분산 최적화 기법입니다.목적대규모 모델의 학습 가능성을..

Topic 2025.09.08

FSDP (Fully Sharded Data Parallel)

개요FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 분산 학습 기법 중 하나로, 모델의 파라미터, 그래디언트, 옵티마이저 상태를 GPU 간에 샤딩(sharding)하여 메모리 사용량을 획기적으로 절감할 수 있는 방식입니다. 특히 GPT, BERT와 같은 초대규모 모델의 학습에 적합하며, 기존 DataParallel, DDP(Distributed Data Parallel) 방식의 메모리 한계를 극복합니다.본 글에서는 FSDP의 원리, 구성, 주요 기술, 성능 효과 등을 분석하고 실제 적용 시 고려할 전략을 소개합니다.1. 개념 및 정의 항목 설명 정의FSDP는 모델 파라미터 및 상태 정보를 GPU 간에 분산 저장하고 통신을 통해 학습을 수행하는 분산 학습 방식입니..

Topic 2025.09.08

TensorRT-LLM

개요TensorRT-LLM은 NVIDIA가 개발한 대규모 언어 모델(LLM) 추론 최적화 프레임워크로, GPU 기반에서 Transformer 기반 모델의 효율적 실행을 위한 고성능 런타임 환경을 제공합니다. FP8, Tensor Parallelism, Paginated KV-Cache, 비동기 텍스트 스트리밍 등 다양한 고급 기능을 지원하며, 개발자가 손쉽게 LLM을 배포하고 상용화할 수 있도록 설계되어 있습니다.이 글에서는 TensorRT-LLM의 구조, 주요 기술, 성능 특성, 활용 사례 등을 분석하여 LLM 인프라 성능 극대화를 위한 전략을 소개합니다.1. 개념 및 정의 항목 설명 정의TensorRT-LLM은 NVIDIA GPU에서 Transformer 기반 모델을 빠르고 효율적으로 실행하기 위한..

Topic 2025.09.07

vLLM

개요vLLM은 대규모 언어 모델(LLM)의 실시간 추론 성능을 최적화하기 위해 설계된 오픈소스 추론 엔진입니다. Hugging Face Transformers 기반 모델을 중심으로 빠른 응답, 높은 GPU 활용률, 비동기 텍스트 스트리밍, 다중 사용자 요청 병렬 처리 등을 지원하며, 특히 Serve-ready LLM 시스템 구축에 강력한 기반을 제공합니다.이 글에서는 vLLM의 구조, 핵심 기술, 활용 사례 등을 통해 LLM 인프라스트럭처의 추론 효율성과 비용 최적화 전략을 소개합니다.1. 개념 및 정의 항목 설명 정의vLLM은 LLM 기반 모델을 위한 고성능 추론 엔진으로, 빠른 응답성과 GPU 자원 최적화를 지향합니다.목적다양한 사용자 요청을 빠르게 처리하며, GPU 활용률을 극대화한 대규모 추론 ..

Topic 2025.09.07
728x90
반응형