728x90
반응형

onnx 3

Triton Inference Server

개요AI 모델을 실제 서비스에 적용하려면, 학습 이후 단계인 **추론(Inference)**을 빠르고 안정적으로 처리할 수 있어야 합니다. 이를 위한 대표적 오픈소스 플랫폼이 NVIDIA의 Triton Inference Server입니다. 다양한 프레임워크 모델을 일관된 방식으로 배포하고, GPU 및 CPU 리소스를 효율적으로 활용하며, 대규모 AI 추론 워크로드를 안정적으로 처리할 수 있는 서버입니다. 본 글에서는 Triton Inference Server의 구조, 기능, 장점 및 적용 사례를 상세히 살펴봅니다.1. 개념 및 정의Triton Inference Server는 NVIDIA가 개발한 범용 AI 추론 서버로, 다양한 딥러닝 프레임워크(PyTorch, TensorFlow, ONNX 등) 기반의 ..

Topic 2025.07.16

Phi-3-mini

개요Phi-3-mini는 Microsoft가 개발한 경량화 대규모 언어모델(Mini LLM)로, 모바일 및 엣지 환경에서도 고성능 자연어 이해와 생성이 가능하도록 최적화된 차세대 LLM이다. 상대적으로 작은 파라미터 수에도 불구하고 뛰어난 평가 성능을 자랑하며, 실제 활용 가능한 '작지만 강한' 모델로 주목받고 있다.1. 개념 및 정의Phi-3-mini는 Microsoft의 Phi 모델 시리즈 중 가장 최신 소형 모델로, 3.8B 파라미터 크기를 기반으로 모바일, IoT, 웹, 데스크톱 등 경량 디바이스에서도 LLM 기능을 제공할 수 있도록 설계되었다.모델 크기: 3.8B 파라미터출시일: 2024년 4월배포 형식: ONNX, PyTorch, GGUF, WebLLM 등 다양한 포맷 제공적용 플랫폼: And..

Topic 2025.07.14

경량 딥러닝 기술(Lightweight Deep Learning)

개요경량 딥러닝 기술(Lightweight Deep Learning)은 인공지능(AI) 모델의 크기, 계산량, 전력 소비를 최소화하여 모바일, IoT, 임베디드, 에지 디바이스 등 성능 제약이 있는 환경에서도 딥러닝을 실행할 수 있도록 최적화하는 기술입니다. AI의 클라우드 중심 구조에서 벗어나 디바이스 자체에서의 추론이 가능해짐으로써 지연 최소화, 네트워크 의존도 감소, 개인정보 보호 등 다양한 이점을 제공합니다.1. 개념 및 정의 항목 설명 정의기존의 대형 AI 모델을 크기, 속도, 연산 효율 면에서 최적화하여 저사양 환경에서도 동작하도록 경량화한 기술적용 환경모바일 앱, IoT 기기, CCTV, 드론, 웨어러블, 자동차 등목적AI의 온디바이스(On-Device) 실행을 가능하게 하여 실시간 처리와..

Topic 2025.04.24
728x90
반응형