개요TGI(Text Generation Inference)는 Hugging Face에서 개발한 대규모 언어 모델(LLM) 전용 추론 서버로, 효율적이고 확장 가능한 텍스트 생성 서비스를 제공하기 위한 고성능 인퍼런스(추론) 엔진입니다. GPT, LLaMA, Falcon 등 다양한 모델을 지원하며, GPU 및 CPU 자원을 최적화하여 대규모 요청 처리에 적합한 분산형 아키텍처를 제공합니다.1. 개념 및 정의항목내용비고정의대규모 언어 모델의 텍스트 생성 작업을 고속으로 수행하는 인퍼런스 서버Hugging Face 오픈소스 프로젝트목적LLM을 위한 효율적 추론 환경 구축Latency 감소 및 Throughput 향상필요성ChatGPT, Copilot 등 LLM 서비스의 실시간 추론 수요 증가MLOps 및 AI..