728x90
반응형

rdma 6

GPUDirect RDMA

개요GPUDirect RDMA(Remote Direct Memory Access)는 NVIDIA가 개발한 GPU 메모리 직접 액세스 기술로, GPU와 네트워크 인터페이스 카드(NIC) 간 데이터 전송 시 CPU를 거치지 않고 직접 메모리 간 통신을 수행합니다. 이를 통해 지연(latency)을 최소화하고 데이터 전송 효율을 극대화하여 HPC(High Performance Computing), AI 트레이닝, 데이터센터 통신 등에 최적화된 성능을 제공합니다.1. 개념 및 정의 항목 내용 비고 정의GPU 메모리와 네트워크 인터페이스 간 직접 메모리 접근을 지원하는 기술NVIDIA GPUDirect API 기반목적CPU 개입 없이 데이터 전송 효율 향상지연 최소화 및 대역폭 최적화필요성AI·HPC 워크로드..

Topic 2025.12.17

DCQCN (Data Center Quantized Congestion Notification)

개요DCQCN(Data Center Quantized Congestion Notification)은 데이터센터 네트워크의 RoCEv2 (RDMA over Converged Ethernet) 환경에서 혼잡을 효율적으로 제어하기 위한 전송 프로토콜입니다. IEEE 802.1Qau QCN(Quantized Congestion Notification) 표준을 기반으로 하며, 저지연·고대역폭·무손실 네트워크(Zero Loss Network) 구현을 목표로 합니다.1. 개념 및 정의 항목 내용 비고 정의RoCEv2 네트워크에서 혼잡을 제어하기 위해 설계된 TCP-친화적 혼잡 제어 알고리즘Mellanox/NVIDIA 주도 개발목적혼잡 시 대역폭 효율적 사용과 패킷 손실 방지RDMA 트래픽 안정화필요성데이터센터 내..

Topic 2025.11.17

PFC (Priority Flow Control)

개요PFC(Priority Flow Control)는 IEEE 802.1Qbb 표준으로 정의된 이더넷 흐름 제어 기술로, 데이터센터 네트워크에서 특정 트래픽 클래스(Class of Service)에 대해 손실 없는 전송을 보장한다. RDMA over Converged Ethernet(RoCE)과 같은 초저지연 애플리케이션 환경에서 필수적인 기술로, 네트워크 혼잡으로 인한 패킷 손실을 방지한다.1. 개념 및 정의 항목 내용 설명 정의PFC (Priority Flow Control)트래픽 클래스 단위 흐름 제어 기술목적손실 없는 데이터 전송 보장네트워크 혼잡 시 패킷 드롭 방지필요성HPC, AI/ML, 스토리지 네트워크무손실·저지연 통신 요구PFC는 전통적인 PAUSE 프레임을 확장하여, 전체 링크가 아..

Topic 2025.10.06

RoCEv2 (RDMA over Converged Ethernet v2)

개요RoCEv2(RDMA over Converged Ethernet version 2)는 데이터센터 네트워크에서 RDMA(Remote Direct Memory Access)를 이더넷 상에서 구현하기 위한 프로토콜이다. RoCE의 확장 버전으로, L2에 국한되었던 기존 RoCE를 넘어 L3 라우팅 환경에서도 RDMA를 지원하여 확장성과 유연성을 대폭 강화했다.1. 개념 및 정의 항목 내용 설명 정의RoCEv2L3 네트워크 기반 RDMA 프로토콜목적고성능 저지연 데이터 전송CPU 개입 최소화 및 성능 최적화필요성대규모 클라우드·AI 워크로드 증가초저지연·고대역폭 네트워크 필요RoCEv2는 데이터센터의 HPC(고성능 컴퓨팅), AI/ML, 클라우드 워크로드에서 핵심 네트워크 기술로 자리잡고 있다.2. 특징..

Topic 2025.10.06

Elastic Fabric Adapter(EFA)

개요Elastic Fabric Adapter(EFA)는 AWS에서 제공하는 고성능 컴퓨팅(High Performance Computing, HPC) 및 기계 학습 워크로드에 최적화된 고속 네트워크 인터페이스입니다. 전통적인 EC2 네트워크보다 더 낮은 지연(latency), 더 높은 처리량, 고속 메시지 전송 기능을 제공하여, MPI(Message Passing Interface)를 사용하는 분산 애플리케이션에서 온프레미스 수준의 성능을 실현할 수 있습니다.1. 개념 및 정의EFA는 EC2 인스턴스에 직접 탑재되어, EC2 내에서 실행되는 애플리케이션이 다른 인스턴스와 저지연 네트워크 통신을 가능하게 하는 ENI(Elastic Network Interface)의 확장입니다. TCP/IP 스택을 우회(by..

Topic 2025.05.08

NVMe-over-Fabrics(NVMe-oF)

개요NVMe-over-Fabrics(NVMe-oF)는 고성능 로컬 SSD 인터페이스인 NVMe(Non-Volatile Memory Express)를 데이터센터, 클라우드, 엣지 환경에서 네트워크를 통해 확장 가능한 고속 원격 스토리지 구조로 발전시킨 기술입니다. 초저지연, 고대역폭 네트워크 패브릭을 통해 **스토리지와 컴퓨트 자원의 분리(Disaggregation)**를 실현하며, CPU 오버헤드 최소화 및 확장성 있는 스토리지 인프라로 주목받고 있습니다.1. 개념 및 정의NVMe-oF는 NVMe 명령어를 이더넷, 인피니밴드, 파이버 채널 등의 네트워크 패브릭 위에서 전송할 수 있도록 확장한 프로토콜입니다.기본 개념: NVMe를 네트워크 기반으로 원격 장치에 확장전송 방식: TCP, RDMA(RoCE, ..

Topic 2025.05.07
728x90
반응형