728x90
반응형

AI서비스 2

TGI (Text Generation Inference)

개요TGI(Text Generation Inference)는 Hugging Face에서 개발한 대규모 언어 모델(LLM) 전용 추론 서버로, 효율적이고 확장 가능한 텍스트 생성 서비스를 제공하기 위한 고성능 인퍼런스(추론) 엔진입니다. GPT, LLaMA, Falcon 등 다양한 모델을 지원하며, GPU 및 CPU 자원을 최적화하여 대규모 요청 처리에 적합한 분산형 아키텍처를 제공합니다.1. 개념 및 정의항목내용비고정의대규모 언어 모델의 텍스트 생성 작업을 고속으로 수행하는 인퍼런스 서버Hugging Face 오픈소스 프로젝트목적LLM을 위한 효율적 추론 환경 구축Latency 감소 및 Throughput 향상필요성ChatGPT, Copilot 등 LLM 서비스의 실시간 추론 수요 증가MLOps 및 AI..

Topic 2025.12.24

GPU Fractional Scheduling

개요GPU Fractional Scheduling은 하나의 GPU 자원을 여러 워크로드 또는 사용자 간에 세분화하여 할당하고, 시간 또는 공간 기준으로 효율적으로 스케줄링하는 기술입니다. AI/ML 트레이닝 및 추론 워크로드, 클라우드 기반 모델 서비스 환경에서 GPU 활용률을 극대화하며 비용 효율성을 제공하는 핵심 전략으로 주목받고 있습니다.1. 개념 및 정의Fractional Scheduling은 물리적 GPU 장치를 가상적으로 분할하여 서로 다른 프로세스나 컨테이너가 GPU를 동시에 공유하게 하는 스케줄링 방식입니다.Fractional GPU: GPU 자원을 memory, SM(Core), compute time 등으로 쪼개어 사용Space Sharing: 다중 프로세스가 병렬로 실행 (MPS 기반..

Topic 2025.07.03
728x90
반응형