728x90
반응형

deepspeed 6

PagedOptim

개요PagedOptim은 대규모 언어 모델(LLM)의 파인튜닝/훈련 과정에서 GPU 메모리를 효율적으로 활용하기 위한 페이징 기반 옵티마이저 구조를 갖춘 학습 최적화 프레임워크입니다. 기존 옵티마이저(Adam, AdamW 등)는 파라미터와 옵티마이저 상태(state)를 모두 GPU 메모리에 올려야 했지만, PagedOptim은 **옵티마이저 상태를 페이지 단위로 GPU-CPU/NVMe 간에 이동(페이징)**하여, 메모리 초과 없이 초대형 모델 훈련을 가능하게 합니다.1. 개념 및 정의 항목 내용 비고 정의옵티마이저 상태를 페이지 단위로 관리하며 GPU-CPU 간 페이징을 수행하는 옵티마이저 계층DeepSpeed/Colossal-AI 기반 구현 예 존재목적GPU 메모리 한계를 넘어 대규모 모델 훈련 가..

Topic 2026.02.13

TGI (Text Generation Inference)

개요TGI(Text Generation Inference)는 Hugging Face에서 개발한 대규모 언어 모델(LLM) 전용 추론 서버로, 효율적이고 확장 가능한 텍스트 생성 서비스를 제공하기 위한 고성능 인퍼런스(추론) 엔진입니다. GPT, LLaMA, Falcon 등 다양한 모델을 지원하며, GPU 및 CPU 자원을 최적화하여 대규모 요청 처리에 적합한 분산형 아키텍처를 제공합니다.1. 개념 및 정의항목내용비고정의대규모 언어 모델의 텍스트 생성 작업을 고속으로 수행하는 인퍼런스 서버Hugging Face 오픈소스 프로젝트목적LLM을 위한 효율적 추론 환경 구축Latency 감소 및 Throughput 향상필요성ChatGPT, Copilot 등 LLM 서비스의 실시간 추론 수요 증가MLOps 및 AI..

Topic 2025.12.24

Pipeline Parallelism (PP)

개요Pipeline Parallelism(PP)은 대규모 딥러닝 모델을 여러 GPU 장치 또는 노드에 단계별로 분할하여 학습하는 병렬화 기법이다. 각 GPU가 서로 다른 Layer 또는 Block을 담당하며, 입력 데이터가 파이프라인처럼 순차적으로 흐르도록 구성된다. 이 방식은 GPU 메모리 한계를 극복하고, 모델 학습 속도를 높이는 핵심 기술로 사용된다.1. 개념 및 정의PP는 모델의 Layer 단위를 여러 장비로 나누어 병렬 처리하는 구조로, 하나의 미니배치가 여러 Stage를 순차적으로 통과한다. 각 Stage는 특정 Layer 그룹을 담당하며, 전 단계의 출력을 받아 다음 단계로 전달한다.예를 들어, 48개의 Transformer Layer를 가진 모델을 4개의 GPU에 나누면, 각 GPU가 12..

Topic 2025.12.08

Tensor Parallelism (TP)

개요Tensor Parallelism(TP)은 대규모 신경망 학습 시 하나의 연산(예: 행렬 곱셈)을 여러 GPU로 나누어 처리하는 **모델 병렬화(Model Parallelism)**의 한 형태이다. TP는 특히 GPT, BERT, LLaMA와 같은 초거대 언어 모델(LLM) 학습에서 핵심 역할을 하며, GPU 메모리 한계를 극복하고 연산 속도를 향상시키기 위해 사용된다.1. 개념 및 정의Tensor Parallelism은 **단일 Layer 내의 텐서 연산을 여러 GPU로 분할(distribute)**하여 계산을 병렬화하는 기법이다. 예를 들어, 거대한 Weight Matrix(W ∈ R^{m×n})를 여러 GPU에 나누어 분할 저장하고, 입력 벡터에 대한 연산을 분산 수행한 후 결과를 통합(Gath..

Topic 2025.12.07

DeepSpeed ZeRO-3

개요DeepSpeed ZeRO-3(Zero Redundancy Optimizer Stage 3)는 초대규모 언어 모델 학습 시 발생하는 메모리 병목을 극복하기 위한 Microsoft의 DeepSpeed 프레임워크 구성 요소입니다. 모델 파라미터, 옵티마이저 상태, 그래디언트를 모두 분산 저장하여 GPU 메모리 사용을 획기적으로 줄이고, 100B+ 파라미터 모델의 학습을 단일 또는 소수 GPU 환경에서도 가능하게 만듭니다.이 글에서는 ZeRO-3의 구조, 작동 방식, 핵심 기술, 장점 및 실무 적용 전략을 살펴봅니다.1. 개념 및 정의 항목 설명 정의ZeRO-3는 학습 시 모든 파라미터 관련 메타정보를 GPU 간 분산 저장하여 메모리 중복을 제거하는 분산 최적화 기법입니다.목적대규모 모델의 학습 가능성을..

Topic 2025.09.08

DeepSpeed ZeRO-Infinity

개요DeepSpeed ZeRO-Infinity는 마이크로소프트가 오픈소스로 개발한 대규모 언어 모델(LLM) 학습 프레임워크 DeepSpeed의 최신 확장 기술로, 수조(trillion)-단위 파라미터 모델의 효율적 학습과 추론을 가능하게 하는 메모리 최적화 솔루션입니다. 기존 DeepSpeed ZeRO(Zero Redundancy Optimizer)의 한계를 극복하고, GPU와 CPU 메모리는 물론 NVMe 저장장치까지 포함한 하이브리드 메모리 계층을 활용함으로써 GPU 메모리 병목을 완화합니다.1. 개념 및 정의 항목 설명 정의DeepSpeed ZeRO-Infinity는 모델 파라미터, 옵티마이저 상태, 활성값(activations)을 GPU/CPU/NVMe 계층으로 분산 저장하여 대규모 모델 학습..

Topic 2025.06.06
728x90
반응형