728x90
반응형

ai 추론 4

ONNX Runtime

개요ONNX Runtime은 다양한 프레임워크(TensorFlow, PyTorch 등)에서 학습된 모델을 ONNX(Open Neural Network Exchange) 포맷으로 변환하여 빠르고 효율적으로 추론할 수 있도록 해주는 고성능 런타임 엔진입니다. Microsoft에서 개발한 이 오픈소스 프로젝트는 CPU, GPU, 모바일, 웹 등 다양한 환경에서 최적화된 추론 성능을 제공합니다.1. 개념 및 정의 항목 내용 비고 정의ONNX 포맷 모델을 다양한 하드웨어에서 효율적으로 실행하기 위한 추론 엔진Apache 2.0 라이선스목적프레임워크 독립적이고 최적화된 추론 환경 제공다양한 AI 플랫폼 호환배포 환경클라우드, 엣지, 브라우저, 모바일 등Windows, Linux, macOS, Android 지원..

Topic 2025.10.27

GraphRAG

개요GraphRAG는 전통적인 RAG(Retrieval-Augmented Generation) 프레임워크에 그래프 데이터 구조를 결합하여, 문맥 간 관계성과 정보 연결성을 극대화한 차세대 생성형 AI 기술입니다. GraphDB(Graph Database) 또는 지식 그래프를 기반으로 하여, 복잡한 관계형 정보를 보다 정밀하게 검색하고 LLM이 활용할 수 있도록 설계되었습니다.이 글에서는 GraphRAG의 정의, 구조적 특징, 기술적 구성 요소, 실제 사용 사례 및 도입 시 고려사항 등을 상세히 설명하며, 고도화된 AI 정보 추론 시스템을 구축하고자 하는 조직에 실질적인 인사이트를 제공합니다.1. 개념 및 정의 항목 설명 정의GraphRAG는 검색 기반 생성(RAG)에 그래프 DB를 결합해 문서 간의 의..

Topic 2025.09.02

Triton Inference Server

개요AI 모델을 실제 서비스에 적용하려면, 학습 이후 단계인 **추론(Inference)**을 빠르고 안정적으로 처리할 수 있어야 합니다. 이를 위한 대표적 오픈소스 플랫폼이 NVIDIA의 Triton Inference Server입니다. 다양한 프레임워크 모델을 일관된 방식으로 배포하고, GPU 및 CPU 리소스를 효율적으로 활용하며, 대규모 AI 추론 워크로드를 안정적으로 처리할 수 있는 서버입니다. 본 글에서는 Triton Inference Server의 구조, 기능, 장점 및 적용 사례를 상세히 살펴봅니다.1. 개념 및 정의Triton Inference Server는 NVIDIA가 개발한 범용 AI 추론 서버로, 다양한 딥러닝 프레임워크(PyTorch, TensorFlow, ONNX 등) 기반의 ..

Topic 2025.07.16

WasmEdge

개요WasmEdge는 클라우드 네이티브 및 엣지 컴퓨팅 환경에 최적화된 고성능 WebAssembly(WASM) 런타임입니다. CNCF(Cloud Native Computing Foundation)의 샌드박스 프로젝트로 시작되었으며, 경량성, 빠른 시작 속도, 높은 보안성을 기반으로 마이크로서비스, AI 추론, IoT 등 다양한 분야에서 사용되고 있습니다.1. 개념 및 정의WasmEdge는 WebAssembly 모듈을 빠르게 실행할 수 있는 실행 환경으로, 다양한 언어(Rust, C/C++, JavaScript 등)로 작성된 애플리케이션을 안전하게 격리된 환경에서 실행합니다. 기존 컨테이너보다 더 가볍고 빠르며, Kubernetes, Docker와 같은 인프라와도 쉽게 통합됩니다.WasmEdge는 특히 서..

Topic 2025.05.17
728x90
반응형