728x90
반응형

대규모 모델 학습 3

DeepSpeed ZeRO-3

개요DeepSpeed ZeRO-3(Zero Redundancy Optimizer Stage 3)는 초대규모 언어 모델 학습 시 발생하는 메모리 병목을 극복하기 위한 Microsoft의 DeepSpeed 프레임워크 구성 요소입니다. 모델 파라미터, 옵티마이저 상태, 그래디언트를 모두 분산 저장하여 GPU 메모리 사용을 획기적으로 줄이고, 100B+ 파라미터 모델의 학습을 단일 또는 소수 GPU 환경에서도 가능하게 만듭니다.이 글에서는 ZeRO-3의 구조, 작동 방식, 핵심 기술, 장점 및 실무 적용 전략을 살펴봅니다.1. 개념 및 정의 항목 설명 정의ZeRO-3는 학습 시 모든 파라미터 관련 메타정보를 GPU 간 분산 저장하여 메모리 중복을 제거하는 분산 최적화 기법입니다.목적대규모 모델의 학습 가능성을..

Topic 2025.09.08

FSDP (Fully Sharded Data Parallel)

개요FSDP(Fully Sharded Data Parallel)는 PyTorch에서 제공하는 분산 학습 기법 중 하나로, 모델의 파라미터, 그래디언트, 옵티마이저 상태를 GPU 간에 샤딩(sharding)하여 메모리 사용량을 획기적으로 절감할 수 있는 방식입니다. 특히 GPT, BERT와 같은 초대규모 모델의 학습에 적합하며, 기존 DataParallel, DDP(Distributed Data Parallel) 방식의 메모리 한계를 극복합니다.본 글에서는 FSDP의 원리, 구성, 주요 기술, 성능 효과 등을 분석하고 실제 적용 시 고려할 전략을 소개합니다.1. 개념 및 정의 항목 설명 정의FSDP는 모델 파라미터 및 상태 정보를 GPU 간에 분산 저장하고 통신을 통해 학습을 수행하는 분산 학습 방식입니..

Topic 2025.09.08

NVSwitch

개요NVSwitch는 NVIDIA가 설계한 고속 GPU 인터커넥트 스위치로, 복수의 GPU를 단일 시스템 내에서 **풀 메쉬(Fully Connected Topology)**로 연결하여 고속 데이터 전송을 실현하는 핵심 기술입니다. 기존 NVLink보다 더욱 확장성 있고, 고대역폭 연결이 가능해 AI 모델 학습, HPC, 클라우드 데이터센터 환경에서 핵심적 역할을 수행합니다.1. 개념 및 정의NVSwitch는 NVIDIA의 고성능 스위칭 ASIC으로, 다수의 GPU를 고속으로 상호 연결하여 마치 하나의 통합 메모리 공간처럼 작동할 수 있도록 지원하는 장치입니다.목적: GPU 간 병렬 작업에서 발생하는 대역폭 병목 해결필요성: AI, 시뮬레이션, 과학계산 등에서 메모리 공유 및 대규모 연산 처리 가속화기반..

Topic 2025.05.06
728x90
반응형