728x90
반응형

분산 학습 4

DeepSpeed ZeRO-3

개요DeepSpeed ZeRO-3(Zero Redundancy Optimizer Stage 3)는 초대규모 언어 모델 학습 시 발생하는 메모리 병목을 극복하기 위한 Microsoft의 DeepSpeed 프레임워크 구성 요소입니다. 모델 파라미터, 옵티마이저 상태, 그래디언트를 모두 분산 저장하여 GPU 메모리 사용을 획기적으로 줄이고, 100B+ 파라미터 모델의 학습을 단일 또는 소수 GPU 환경에서도 가능하게 만듭니다.이 글에서는 ZeRO-3의 구조, 작동 방식, 핵심 기술, 장점 및 실무 적용 전략을 살펴봅니다.1. 개념 및 정의 항목 설명 정의ZeRO-3는 학습 시 모든 파라미터 관련 메타정보를 GPU 간 분산 저장하여 메모리 중복을 제거하는 분산 최적화 기법입니다.목적대규모 모델의 학습 가능성을..

Topic 2025.09.08

FSDP (Fully Sharded Data Parallel)

개요FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 분산 학습 기법 중 하나로, 모델의 파라미터, 그래디언트, 옵티마이저 상태를 GPU 간에 샤딩(sharding)하여 메모리 사용량을 획기적으로 절감할 수 있는 방식입니다. 특히 GPT, BERT와 같은 초대규모 모델의 학습에 적합하며, 기존 DataParallel, DDP(Distributed Data Parallel) 방식의 메모리 한계를 극복합니다.본 글에서는 FSDP의 원리, 구성, 주요 기술, 성능 효과 등을 분석하고 실제 적용 시 고려할 전략을 소개합니다.1. 개념 및 정의 항목 설명 정의FSDP는 모델 파라미터 및 상태 정보를 GPU 간에 분산 저장하고 통신을 통해 학습을 수행하는 분산 학습 방식입니..

Topic 2025.09.08

DeepSpeed ZeRO-Infinity

개요DeepSpeed ZeRO-Infinity는 마이크로소프트가 오픈소스로 개발한 대규모 언어 모델(LLM) 학습 프레임워크 DeepSpeed의 최신 확장 기술로, 수조(trillion)-단위 파라미터 모델의 효율적 학습과 추론을 가능하게 하는 메모리 최적화 솔루션입니다. 기존 DeepSpeed ZeRO(Zero Redundancy Optimizer)의 한계를 극복하고, GPU와 CPU 메모리는 물론 NVMe 저장장치까지 포함한 하이브리드 메모리 계층을 활용함으로써 GPU 메모리 병목을 완화합니다.1. 개념 및 정의 항목 설명 정의DeepSpeed ZeRO-Infinity는 모델 파라미터, 옵티마이저 상태, 활성값(activations)을 GPU/CPU/NVMe 계층으로 분산 저장하여 대규모 모델 학습..

Topic 2025.06.06

Federated Reinforcement Learning (FRL)

개요Federated Reinforcement Learning(FRL)은 여러 에이전트가 로컬 환경에서 학습한 강화학습 정책(Policy)을 중앙 서버로 공유하고 통합함으로써, 전체 시스템의 학습 성능을 향상시키면서도 사용자 데이터는 로컬에 보존하는 프라이버시 중심의 학습 프레임워크입니다. FRL은 스마트 디바이스, 자율주행, 산업 로봇, 의료 시스템 등 민감 데이터를 포함한 분산 환경에서 안전하고 효율적인 AI 학습을 가능하게 합니다.1. 개념 및 정의 항목 설명 비고 정의각 에이전트가 로컬 환경에서 강화학습을 수행하고, 정책 또는 파라미터를 중앙 서버에 공유하여 집합적 학습을 수행하는 프레임워크FL(Federated Learning) + RL(Reinforcement Learning) 결합목적데이..

Topic 2025.05.30
728x90
반응형