728x90
반응형

2026/02/01 4

FlashInfer

개요FlashInfer는 대규모 언어 모델(LLM)의 추론 성능을 획기적으로 개선하기 위해 설계된 CUDA 기반 시퀀스 추론 최적화 라이브러리입니다. 특히 KV 캐시(Key-Value Cache) 구조를 GPU 메모리 친화적으로 재설계하고, 토크나이즈된 입력의 반복적 연산을 줄임으로써 높은 속도와 낮은 지연(latency)을 동시에 제공합니다. FlashAttention2의 연산 최적화 기술을 활용합니다.1. 개념 및 정의 항목 설명 정의GPU 친화적으로 구현된 고속 시퀀스 추론 전용 LLM 추론 가속 엔진목적LLM 응답 생성 속도를 최대화하고 지연 시간 최소화필요성LLM의 실시간 대화 응답, RAG, 스트리밍 생성 등에서 추론 병목 해결FlashInfer는 inference 전용으로 설계되어 mult..

Topic 18:08:41

BitNet

개요BitNet은 고성능 AI 모델의 추론 효율성과 학습 속도를 개선하기 위해 고안된 신경망 구조로, 전체 모델 또는 주요 연산을 1~2비트 정밀도로 수행할 수 있도록 최적화된 비트 기반 인공신경망 아키텍처입니다. 특히 LLM, Vision Transformer 등 대형 모델에서도 적은 메모리와 연산량으로도 우수한 성능을 유지할 수 있도록 설계되었습니다.1. 개념 및 정의 항목 설명 정의1~2bit 정밀도로 연산을 수행하며, 메모리 사용량과 FLOPs를 최소화한 경량형 딥러닝 모델 아키텍처목적LLM 등의 대형 모델을 저자원 환경에서도 효율적으로 운영필요성대규모 모델의 고비용/저속 추론 문제 해결BitNet은 bfloat16, fp32 등 고정밀도 방식 대비 수십 배 더 효율적인 메모리·속도 구현 가능2..

Topic 14:18:03

KAN(Kolmogorov–Arnold Networks)

개요KAN(Kolmogorov–Arnold Networks)은 기존의 인공신경망(ANN)에서 사용하는 고정된 비선형 활성함수 대신, 학습 가능한 수학적 함수(예: B-spline)를 기반으로 각 뉴런을 대체한 새로운 신경망 구조입니다. 뉴런 대신 수학적으로 해석 가능한 커널로 구성되어 더 높은 표현력과 해석 가능성을 제공합니다.1. 개념 및 정의 항목 설명 정의Kolmogorov–Arnold 표현 정리에 기반한 수학적 함수 조합으로 구성된 적응형 신경망 구조목적기존 딥러닝보다 더 해석 가능하고 수학적으로 강건한 구조 추구필요성블랙박스 모델의 해석 어려움, 과적합, 일반화 문제 해결KAN은 뉴런을 제거하고 학습 가능한 B-spline 기반 커널 함수로 모델을 구성함2. 특징특징설명비교뉴런 없는 구조ReL..

Topic 07:17:22

RAG-Fusion(Retrieval-Augmented Generation Fusion)

개요RAG-Fusion은 검색 기반 생성(RAG) 시스템의 성능을 향상시키기 위한 전략 중 하나로, 다양한 질의(Query Variants)를 통해 수집된 검색 결과를 융합(Fusion)하여 보다 정확하고 풍부한 문맥 정보를 생성 모델에 제공하는 방식입니다. 복수의 질의를 활용함으로써 검색 커버리지를 확장하고, 다양한 관점의 정보를 반영할 수 있어 정답률과 응답 다양성이 크게 향상됩니다.1. 개념 및 정의 항목 설명 정의여러 형태의 질의에서 얻은 문서들을 결합하여 RAG 시스템의 정답률을 높이는 검색 강화 기법목적문맥 검색의 다양성과 정보 포괄성 증대필요성단일 질의로는 얻기 어려운 다양한 관점의 정보 확보Fusion은 단순한 병합이 아닌 중복 제거, 중요도 기반 재정렬 등의 전처리도 포함함2. 특징특징..

Topic 00:16:28
728x90
반응형