728x90
반응형

GPU추론 2

TGI (Text Generation Inference)

개요TGI(Text Generation Inference)는 Hugging Face에서 개발한 대규모 언어 모델(LLM) 전용 추론 서버로, 효율적이고 확장 가능한 텍스트 생성 서비스를 제공하기 위한 고성능 인퍼런스(추론) 엔진입니다. GPT, LLaMA, Falcon 등 다양한 모델을 지원하며, GPU 및 CPU 자원을 최적화하여 대규모 요청 처리에 적합한 분산형 아키텍처를 제공합니다.1. 개념 및 정의항목내용비고정의대규모 언어 모델의 텍스트 생성 작업을 고속으로 수행하는 인퍼런스 서버Hugging Face 오픈소스 프로젝트목적LLM을 위한 효율적 추론 환경 구축Latency 감소 및 Throughput 향상필요성ChatGPT, Copilot 등 LLM 서비스의 실시간 추론 수요 증가MLOps 및 AI..

Topic 2025.12.24

KServe

개요AI/ML 모델을 실제 서비스 환경에 배포하고 운영하는 과정은 단순한 학습(training)보다 더 복잡하고 까다롭습니다. 특히 확장성, 안정성, 보안, 표준화된 관리가 필수적입니다. 이를 해결하기 위해 CNCF 산하 Kubeflow 프로젝트의 일부로 개발된 KServe는 Kubernetes 네이티브 방식의 모델 서빙 프레임워크로, AI/ML 모델 운영을 단순화하고 표준화합니다.1. 개념 및 정의KServe는 Kubernetes 상에서 머신러닝 및 딥러닝 모델을 효율적으로 배포, 확장, 관리할 수 있는 오픈소스 서빙 프레임워크입니다. 다양한 프레임워크(TensorFlow, PyTorch, XGBoost 등)에서 학습된 모델을 손쉽게 서빙할 수 있도록 지원합니다.주요 목적은 확장 가능한 모델 서빙과 운..

Topic 2025.09.14
728x90
반응형