728x90
반응형

nccl 3

UCX (Unified Communication X)

개요UCX(Unified Communication X)는 HPC (High Performance Computing) 및 AI 환경에서 CPU/GPU 간 고속 통신을 위한 통합 API 및 라이브러리 프레임워크입니다. OpenUCX 프로젝트로 개발되었으며, 다양한 하드웨어 인터커넥트 (Infiniband, Ethernet, NVLink, PCIe 등)와 상위 통신 프레임워크(MPI, SHMEM, NCCL, OpenMP 등) 간의 통신을 일관된 인터페이스로 추상화합니다. Mellanox, NVIDIA, IBM, ARM 등이 참여한 오픈소스 프로젝트입니다.1. 개념 및 정의 항목 내용 비고 정의다양한 네트워크와 메모리 계층을 위한 고성능 통신 추상화 레이어Unified Communication Framewo..

Topic 2026.02.12

NCCL (NVIDIA Collective Communications Library)

개요NCCL(NVIDIA Collective Communications Library)은 다중 GPU 간 데이터 전송을 고속으로 처리하기 위한 NVIDIA의 라이브러리로, 딥러닝 분산 학습 및 멀티-GPU 병렬 처리 환경에서 핵심적인 역할을 합니다. AllReduce, AllGather, ReduceScatter, Broadcast, Reduce 등의 집합 통신(Collective Communication) 연산을 최적화하여, PyTorch, TensorFlow, DeepSpeed, Megatron 등 주요 프레임워크에 내장되어 활용됩니다.1. 개념 및 정의 항목 내용 비고 정의다중 GPU 간 집합 통신을 위한 NVIDIA 제공 통신 라이브러리CUDA 기반 통신 최적화 라이브러리목적분산 딥러닝 훈련 ..

Topic 2026.02.12

Data Parallelism (DP)

개요Data Parallelism(DP)은 대규모 신경망 학습에서 가장 널리 사용되는 병렬화 기법으로, 전체 모델을 각 GPU에 복제하고 데이터 배치를 나누어 병렬로 처리하는 방식이다. 이 접근 방식은 모델 크기가 GPU 메모리 한계에 맞는 경우 가장 효율적인 확장 전략으로, 대형 데이터셋을 빠르고 안정적으로 학습할 수 있게 해준다.1. 개념 및 정의DP는 **데이터를 여러 GPU로 분할(Sharding)**하여 동시에 학습을 수행하고, 각 GPU가 계산한 Gradient를 집계하여(Global Synchronization) 모델을 업데이트하는 구조이다. 모든 GPU는 동일한 모델을 보유하므로, 파라미터 동기화(Synchronization)만 이루어지면 일관된 학습 결과를 얻을 수 있다.즉, DP는 ‘데..

Topic 2025.12.08
728x90
반응형