
개요GPU Fractional Scheduling은 하나의 GPU 자원을 여러 워크로드 또는 사용자 간에 세분화하여 할당하고, 시간 또는 공간 기준으로 효율적으로 스케줄링하는 기술입니다. AI/ML 트레이닝 및 추론 워크로드, 클라우드 기반 모델 서비스 환경에서 GPU 활용률을 극대화하며 비용 효율성을 제공하는 핵심 전략으로 주목받고 있습니다.1. 개념 및 정의Fractional Scheduling은 물리적 GPU 장치를 가상적으로 분할하여 서로 다른 프로세스나 컨테이너가 GPU를 동시에 공유하게 하는 스케줄링 방식입니다.Fractional GPU: GPU 자원을 memory, SM(Core), compute time 등으로 쪼개어 사용Space Sharing: 다중 프로세스가 병렬로 실행 (MPS 기반..