728x90
반응형

nVidia 11

NCCL (NVIDIA Collective Communications Library)

개요NCCL(NVIDIA Collective Communications Library)은 다중 GPU 간 데이터 전송을 고속으로 처리하기 위한 NVIDIA의 라이브러리로, 딥러닝 분산 학습 및 멀티-GPU 병렬 처리 환경에서 핵심적인 역할을 합니다. AllReduce, AllGather, ReduceScatter, Broadcast, Reduce 등의 집합 통신(Collective Communication) 연산을 최적화하여, PyTorch, TensorFlow, DeepSpeed, Megatron 등 주요 프레임워크에 내장되어 활용됩니다.1. 개념 및 정의 항목 내용 비고 정의다중 GPU 간 집합 통신을 위한 NVIDIA 제공 통신 라이브러리CUDA 기반 통신 최적화 라이브러리목적분산 딥러닝 훈련 ..

Topic 2026.02.12

GPUDirect RDMA

개요GPUDirect RDMA(Remote Direct Memory Access)는 NVIDIA가 개발한 GPU 메모리 직접 액세스 기술로, GPU와 네트워크 인터페이스 카드(NIC) 간 데이터 전송 시 CPU를 거치지 않고 직접 메모리 간 통신을 수행합니다. 이를 통해 지연(latency)을 최소화하고 데이터 전송 효율을 극대화하여 HPC(High Performance Computing), AI 트레이닝, 데이터센터 통신 등에 최적화된 성능을 제공합니다.1. 개념 및 정의 항목 내용 비고 정의GPU 메모리와 네트워크 인터페이스 간 직접 메모리 접근을 지원하는 기술NVIDIA GPUDirect API 기반목적CPU 개입 없이 데이터 전송 효율 향상지연 최소화 및 대역폭 최적화필요성AI·HPC 워크로드..

Topic 2025.12.17

NVIDIA GPU Operator

개요NVIDIA GPU Operator는 Kubernetes 클러스터 내에서 GPU 리소스를 자동으로 배포, 구성, 모니터링 및 관리하는 오픈소스 오퍼레이터(Operator)입니다. AI/ML, HPC, 데이터 분석 워크로드를 위한 GPU 인프라를 컨테이너 환경에 최적화된 형태로 운영할 수 있도록 지원하며, NVIDIA의 GPU Cloud(NGC) 생태계와 통합되어 GPU 사용 효율성과 안정성을 극대화합니다.1. 개념 및 정의 항목 내용 비고 정의Kubernetes에서 GPU 드라이버, 런타임, 모니터링 등을 자동으로 관리하는 오퍼레이터CNCF 호환 오픈소스 솔루션목적GPU 리소스의 자동화된 프로비저닝 및 유지관리GPU 인프라 운영 효율화필요성클라우드 네이티브 AI 워크로드 증가 및 GPU 복잡성 완..

Topic 2025.12.16

NVIDIA MIG (Multi-Instance GPU)

개요NVIDIA MIG(Multi-Instance GPU)는 NVIDIA의 Ampere 및 Hopper 아키텍처 기반 GPU에서 하나의 물리 GPU를 여러 개의 독립적인 GPU 인스턴스로 분할하여 사용하도록 지원하는 기술입니다. 이를 통해 단일 GPU를 다수의 사용자 또는 워크로드가 동시에 활용할 수 있으며, AI, HPC, 클라우드 환경에서 GPU 활용도를 극대화합니다.1. 개념 및 정의 항목 내용 비고 정의하나의 GPU를 여러 개의 독립적 GPU 인스턴스로 분리하여 병렬 사용 가능하게 하는 기술NVIDIA Ampere/Hopper 기반목적GPU 자원의 효율적 분배 및 멀티테넌트 환경 지원리소스 낭비 최소화필요성AI/ML, 클라우드, 데이터센터에서 다양한 워크로드 병행 수행 필요GPU 가상화의 핵심..

Topic 2025.12.16

DCQCN (Data Center Quantized Congestion Notification)

개요DCQCN(Data Center Quantized Congestion Notification)은 데이터센터 네트워크의 RoCEv2 (RDMA over Converged Ethernet) 환경에서 혼잡을 효율적으로 제어하기 위한 전송 프로토콜입니다. IEEE 802.1Qau QCN(Quantized Congestion Notification) 표준을 기반으로 하며, 저지연·고대역폭·무손실 네트워크(Zero Loss Network) 구현을 목표로 합니다.1. 개념 및 정의 항목 내용 비고 정의RoCEv2 네트워크에서 혼잡을 제어하기 위해 설계된 TCP-친화적 혼잡 제어 알고리즘Mellanox/NVIDIA 주도 개발목적혼잡 시 대역폭 효율적 사용과 패킷 손실 방지RDMA 트래픽 안정화필요성데이터센터 내..

Topic 2025.11.17

TensorRT-LLM

개요TensorRT-LLM은 NVIDIA가 개발한 대규모 언어 모델(LLM) 추론 최적화 프레임워크로, GPU 기반에서 Transformer 기반 모델의 효율적 실행을 위한 고성능 런타임 환경을 제공합니다. FP8, Tensor Parallelism, Paginated KV-Cache, 비동기 텍스트 스트리밍 등 다양한 고급 기능을 지원하며, 개발자가 손쉽게 LLM을 배포하고 상용화할 수 있도록 설계되어 있습니다.이 글에서는 TensorRT-LLM의 구조, 주요 기술, 성능 특성, 활용 사례 등을 분석하여 LLM 인프라 성능 극대화를 위한 전략을 소개합니다.1. 개념 및 정의 항목 설명 정의TensorRT-LLM은 NVIDIA GPU에서 Transformer 기반 모델을 빠르고 효율적으로 실행하기 위한..

Topic 2025.09.07

NVLink-C2C Chiplet Fabric (NVC2C)

개요AI, HPC, 데이터센터 워크로드가 폭발적으로 증가하면서 단일 SoC(System on Chip)의 한계를 넘어서기 위한 칩렛 기반 아키텍처가 급부상하고 있다. 칩렛은 기능별 반도체 블록을 조합하여 하나의 시스템을 구성하는 방식으로, 설계 유연성과 제조 효율을 동시에 제공한다. 이러한 칩렛 간 연결에서 핵심적인 기술이 바로 **NVIDIA NVLink-C2C (Chip-to-Chip)**이다.NVC2C는 NVIDIA가 2023년 발표한 초고속, 저지연 칩렛 인터커넥트 기술로, 멀티 칩렛 기반 GPU 및 CPU-GPU 통합 칩에서 초고속 데이터 교환을 실현한다. 이는 AI 슈퍼컴퓨팅, 차세대 데이터센터 플랫폼, 고성능 엣지 디바이스의 핵심 인프라로 자리잡고 있다.1. 개념 및 정의 항목 설명 정의N..

Topic 2025.08.07

Triton Inference Server

개요AI 모델을 실제 서비스에 적용하려면, 학습 이후 단계인 **추론(Inference)**을 빠르고 안정적으로 처리할 수 있어야 합니다. 이를 위한 대표적 오픈소스 플랫폼이 NVIDIA의 Triton Inference Server입니다. 다양한 프레임워크 모델을 일관된 방식으로 배포하고, GPU 및 CPU 리소스를 효율적으로 활용하며, 대규모 AI 추론 워크로드를 안정적으로 처리할 수 있는 서버입니다. 본 글에서는 Triton Inference Server의 구조, 기능, 장점 및 적용 사례를 상세히 살펴봅니다.1. 개념 및 정의Triton Inference Server는 NVIDIA가 개발한 범용 AI 추론 서버로, 다양한 딥러닝 프레임워크(PyTorch, TensorFlow, ONNX 등) 기반의 ..

Topic 2025.07.16

Instant-NGP

개요Instant-NGP(Instant Neural Graphics Primitives)는 NVIDIA가 발표한 3D 그래픽용 신경망 학습 프레임워크로, NeRF(Neural Radiance Fields)와 Signed Distance Field(SDF) 기반의 고해상도 3D 표현을 단 몇 초 만에 학습하고 렌더링할 수 있게 한다. 본 글에서는 Instant-NGP의 개념, 핵심 구조, 성능 특징 항목 설명 정의Instant-NGP는 hash encoding과 작은 MLP 기반 구조로 NeRF 학습을 극도로 빠르게 수행하는 실시간 Neural Field 엔진이다.목적수 분~수 시간이 소요되던 NeRF 훈련을 수초~수분 내로 단축기술 기반Multi-resolution Hash Encoding + Tiny..

Topic 2025.07.02

NVSwitch

개요NVSwitch는 NVIDIA가 설계한 고속 GPU 인터커넥트 스위치로, 복수의 GPU를 단일 시스템 내에서 **풀 메쉬(Fully Connected Topology)**로 연결하여 고속 데이터 전송을 실현하는 핵심 기술입니다. 기존 NVLink보다 더욱 확장성 있고, 고대역폭 연결이 가능해 AI 모델 학습, HPC, 클라우드 데이터센터 환경에서 핵심적 역할을 수행합니다.1. 개념 및 정의NVSwitch는 NVIDIA의 고성능 스위칭 ASIC으로, 다수의 GPU를 고속으로 상호 연결하여 마치 하나의 통합 메모리 공간처럼 작동할 수 있도록 지원하는 장치입니다.목적: GPU 간 병렬 작업에서 발생하는 대역폭 병목 해결필요성: AI, 시뮬레이션, 과학계산 등에서 메모리 공유 및 대규모 연산 처리 가속화기반..

Topic 2025.05.06

NVLink

개요NVLink는 NVIDIA가 개발한 고속 GPU 인터커넥트 기술로, GPU 간 및 GPU-CPU 간 대역폭과 효율성을 획기적으로 향상시키는 것을 목표로 합니다. 기존의 PCIe 인터페이스의 한계를 극복하고, 대규모 병렬 컴퓨팅 환경에서 탁월한 성능을 발휘하며, AI, HPC(High Performance Computing), 데이터센터 환경에서 핵심적인 역할을 합니다.1. 개념 및 정의NVLink는 NVIDIA GPU 및 CPU 간의 고대역폭, 저지연의 직렬 인터커넥트 기술입니다. 멀티 GPU 환경에서 더 빠른 메모리 공유와 동기화가 가능하도록 설계되어, 데이터 병목을 최소화하고 GPU 간 협업 처리를 원활하게 해줍니다.목적: PCIe 대비 높은 대역폭을 제공하여 GPU 간 병렬 작업 최적화필요성: ..

Topic 2025.05.06
728x90
반응형