728x90
반응형

2025/12/08 2

Data Parallelism (DP)

개요Data Parallelism(DP)은 대규모 신경망 학습에서 가장 널리 사용되는 병렬화 기법으로, 전체 모델을 각 GPU에 복제하고 데이터 배치를 나누어 병렬로 처리하는 방식이다. 이 접근 방식은 모델 크기가 GPU 메모리 한계에 맞는 경우 가장 효율적인 확장 전략으로, 대형 데이터셋을 빠르고 안정적으로 학습할 수 있게 해준다.1. 개념 및 정의DP는 **데이터를 여러 GPU로 분할(Sharding)**하여 동시에 학습을 수행하고, 각 GPU가 계산한 Gradient를 집계하여(Global Synchronization) 모델을 업데이트하는 구조이다. 모든 GPU는 동일한 모델을 보유하므로, 파라미터 동기화(Synchronization)만 이루어지면 일관된 학습 결과를 얻을 수 있다.즉, DP는 ‘데..

Topic 18:52:20

Pipeline Parallelism (PP)

개요Pipeline Parallelism(PP)은 대규모 딥러닝 모델을 여러 GPU 장치 또는 노드에 단계별로 분할하여 학습하는 병렬화 기법이다. 각 GPU가 서로 다른 Layer 또는 Block을 담당하며, 입력 데이터가 파이프라인처럼 순차적으로 흐르도록 구성된다. 이 방식은 GPU 메모리 한계를 극복하고, 모델 학습 속도를 높이는 핵심 기술로 사용된다.1. 개념 및 정의PP는 모델의 Layer 단위를 여러 장비로 나누어 병렬 처리하는 구조로, 하나의 미니배치가 여러 Stage를 순차적으로 통과한다. 각 Stage는 특정 Layer 그룹을 담당하며, 전 단계의 출력을 받아 다음 단계로 전달한다.예를 들어, 48개의 Transformer Layer를 가진 모델을 4개의 GPU에 나누면, 각 GPU가 12..

Topic 07:14:36
728x90
반응형