Topic

NVIDIA MIG (Multi-Instance GPU)

JackerLab 2025. 12. 16. 08:56
728x90
반응형

개요

NVIDIA MIG(Multi-Instance GPU)는 NVIDIA의 Ampere 및 Hopper 아키텍처 기반 GPU에서 하나의 물리 GPU를 여러 개의 독립적인 GPU 인스턴스로 분할하여 사용하도록 지원하는 기술입니다. 이를 통해 단일 GPU를 다수의 사용자 또는 워크로드가 동시에 활용할 수 있으며, AI, HPC, 클라우드 환경에서 GPU 활용도를 극대화합니다.


1. 개념 및 정의

항목 내용 비고
정의 하나의 GPU를 여러 개의 독립적 GPU 인스턴스로 분리하여 병렬 사용 가능하게 하는 기술 NVIDIA Ampere/Hopper 기반
목적 GPU 자원의 효율적 분배 및 멀티테넌트 환경 지원 리소스 낭비 최소화
필요성 AI/ML, 클라우드, 데이터센터에서 다양한 워크로드 병행 수행 필요 GPU 가상화의 핵심 기술

2. 특징

항목 내용 비고
하드웨어 기반 격리 각 인스턴스가 전용 메모리, 캐시, SM(Stream Multiprocessor)을 가짐 성능 간섭 최소화
완전 독립 실행 각 MIG 인스턴스가 개별 GPU처럼 인식 및 동작 드라이버 레벨 분리
확장성 하나의 GPU에서 최대 7개의 인스턴스 생성 가능 (A100 기준) 유연한 리소스 구성

MIG는 GPU 자원의 ‘논리적 파티셔닝’을 실현합니다.


3. 구성 요소

구성 요소 설명 비고
GPU Instance (GI) 물리 GPU의 논리적 분할 단위 SM, L2 캐시, 메모리 포함
Compute Instance (CI) GI 내 세부 연산 리소스 단위 세밀한 작업 스케줄링 가능
NVLink / PCIe MIG 간 데이터 통신 경로 하드웨어 인터커넥트

이 구조는 GPU 가상화와 유사하지만, 하드웨어 레벨에서 더 높은 격리를 제공합니다.


4. 기술 요소

기술 요소 설명 비고
Ampere 아키텍처 SM과 메모리 파티셔닝을 하드웨어 수준에서 지원 A100, A30, A10G 등 적용
NVIDIA DCGM GPU 헬스 모니터링 및 관리 도구 MIG 인스턴스별 모니터링 지원
Kubernetes 연동 NVIDIA Device Plugin 및 GPU Operator를 통해 컨테이너 관리 MIG-aware 스케줄링 지원

GPU 리소스의 동적 할당과 스케줄링이 가능해집니다.


5. 장점 및 이점

장점 설명 기대 효과
효율성 GPU 자원을 세분화하여 병렬 워크로드 처리 리소스 활용 극대화
격리성 하드웨어 레벨에서 성능 간섭 제거 안정적 성능 보장
유연성 워크로드별로 GPU 인스턴스 크기 조정 클라우드 환경 최적화
비용 절감 하나의 GPU로 여러 사용자 동시 운영 GPU TCO 절감

MIG는 GPU 가상화의 효율성과 보안을 동시에 제공합니다.


6. 주요 활용 사례 및 고려사항

사례 설명 비고
AI/ML 워크로드 분할 학습, 추론, 테스트 환경을 단일 GPU에서 병행 GPU 클러스터 효율 향상
클라우드 서비스 제공 GPU 리소스를 다중 테넌트에게 제공 AWS, GCP, Azure 등 적용
HPC 및 데이터센터 병렬 시뮬레이션 및 데이터 처리 리소스 최적화 및 에너지 절감

MIG 적용 시 GPU 펌웨어 버전 및 드라이버 호환성을 반드시 확인해야 합니다.


7. 결론

NVIDIA MIG는 데이터센터, 클라우드, AI 연구 환경에서 GPU 자원의 효율적 분배와 안정적 운영을 가능하게 하는 혁신적 기술입니다. 단일 GPU를 다중 사용자 및 워크로드에 유연하게 할당함으로써 GPU의 생산성과 비용 효율성을 극대화하며, 차세대 GPU 가상화 아키텍처의 표준으로 자리잡고 있습니다.

728x90
반응형

'Topic' 카테고리의 다른 글

Connect-Web  (0) 2025.12.16
PROFINET(PROcess FIeld NET)  (0) 2025.12.15
GlusterFS  (0) 2025.12.15
Harbor  (0) 2025.12.15
Flatcar Container Linux  (0) 2025.12.15