728x90
반응형

onnx 6

ONNX Runtime

개요ONNX Runtime은 다양한 프레임워크(TensorFlow, PyTorch 등)에서 학습된 모델을 ONNX(Open Neural Network Exchange) 포맷으로 변환하여 빠르고 효율적으로 추론할 수 있도록 해주는 고성능 런타임 엔진입니다. Microsoft에서 개발한 이 오픈소스 프로젝트는 CPU, GPU, 모바일, 웹 등 다양한 환경에서 최적화된 추론 성능을 제공합니다.1. 개념 및 정의 항목 내용 비고 정의ONNX 포맷 모델을 다양한 하드웨어에서 효율적으로 실행하기 위한 추론 엔진Apache 2.0 라이선스목적프레임워크 독립적이고 최적화된 추론 환경 제공다양한 AI 플랫폼 호환배포 환경클라우드, 엣지, 브라우저, 모바일 등Windows, Linux, macOS, Android 지원..

Topic 2025.10.27

OpenVINO

개요OpenVINO™(Open Visual Inference and Neural Network Optimization)는 Intel이 개발한 고성능 딥러닝 추론 최적화 툴킷으로, CPU, GPU, VPU, FPGA 등 다양한 인텔 하드웨어에서 효율적인 모델 추론을 가능하게 합니다. ONNX, TensorFlow, PyTorch 등에서 학습된 모델을 변환하여 엣지 디바이스나 서버 환경에서 빠르게 실행할 수 있도록 지원합니다.1. 개념 및 정의 항목 내용 비고 정의다양한 인텔 하드웨어에서 AI 모델 추론을 최적화하는 오픈소스 툴킷Apache 2.0 라이선스주요 목적추론 속도 최적화, 메모리 효율화, 이식성 확보엣지 AI 및 로컬 추론에 적합지원 플랫폼Windows, Linux, macOS, IoT/엣지 ..

Topic 2025.10.27

TensorRT-LLM

개요TensorRT-LLM은 NVIDIA가 개발한 대규모 언어 모델(LLM) 추론 최적화 프레임워크로, GPU 기반에서 Transformer 기반 모델의 효율적 실행을 위한 고성능 런타임 환경을 제공합니다. FP8, Tensor Parallelism, Paginated KV-Cache, 비동기 텍스트 스트리밍 등 다양한 고급 기능을 지원하며, 개발자가 손쉽게 LLM을 배포하고 상용화할 수 있도록 설계되어 있습니다.이 글에서는 TensorRT-LLM의 구조, 주요 기술, 성능 특성, 활용 사례 등을 분석하여 LLM 인프라 성능 극대화를 위한 전략을 소개합니다.1. 개념 및 정의 항목 설명 정의TensorRT-LLM은 NVIDIA GPU에서 Transformer 기반 모델을 빠르고 효율적으로 실행하기 위한..

Topic 2025.09.07

Triton Inference Server

개요AI 모델을 실제 서비스에 적용하려면, 학습 이후 단계인 **추론(Inference)**을 빠르고 안정적으로 처리할 수 있어야 합니다. 이를 위한 대표적 오픈소스 플랫폼이 NVIDIA의 Triton Inference Server입니다. 다양한 프레임워크 모델을 일관된 방식으로 배포하고, GPU 및 CPU 리소스를 효율적으로 활용하며, 대규모 AI 추론 워크로드를 안정적으로 처리할 수 있는 서버입니다. 본 글에서는 Triton Inference Server의 구조, 기능, 장점 및 적용 사례를 상세히 살펴봅니다.1. 개념 및 정의Triton Inference Server는 NVIDIA가 개발한 범용 AI 추론 서버로, 다양한 딥러닝 프레임워크(PyTorch, TensorFlow, ONNX 등) 기반의 ..

Topic 2025.07.16

Phi-3-mini

개요Phi-3-mini는 Microsoft가 개발한 경량화 대규모 언어모델(Mini LLM)로, 모바일 및 엣지 환경에서도 고성능 자연어 이해와 생성이 가능하도록 최적화된 차세대 LLM이다. 상대적으로 작은 파라미터 수에도 불구하고 뛰어난 평가 성능을 자랑하며, 실제 활용 가능한 '작지만 강한' 모델로 주목받고 있다.1. 개념 및 정의Phi-3-mini는 Microsoft의 Phi 모델 시리즈 중 가장 최신 소형 모델로, 3.8B 파라미터 크기를 기반으로 모바일, IoT, 웹, 데스크톱 등 경량 디바이스에서도 LLM 기능을 제공할 수 있도록 설계되었다.모델 크기: 3.8B 파라미터출시일: 2024년 4월배포 형식: ONNX, PyTorch, GGUF, WebLLM 등 다양한 포맷 제공적용 플랫폼: And..

Topic 2025.07.14

경량 딥러닝 기술(Lightweight Deep Learning)

개요경량 딥러닝 기술(Lightweight Deep Learning)은 인공지능(AI) 모델의 크기, 계산량, 전력 소비를 최소화하여 모바일, IoT, 임베디드, 에지 디바이스 등 성능 제약이 있는 환경에서도 딥러닝을 실행할 수 있도록 최적화하는 기술입니다. AI의 클라우드 중심 구조에서 벗어나 디바이스 자체에서의 추론이 가능해짐으로써 지연 최소화, 네트워크 의존도 감소, 개인정보 보호 등 다양한 이점을 제공합니다.1. 개념 및 정의 항목 설명 정의기존의 대형 AI 모델을 크기, 속도, 연산 효율 면에서 최적화하여 저사양 환경에서도 동작하도록 경량화한 기술적용 환경모바일 앱, IoT 기기, CCTV, 드론, 웨어러블, 자동차 등목적AI의 온디바이스(On-Device) 실행을 가능하게 하여 실시간 처리와..

Topic 2025.04.24
728x90
반응형