개요FlashInfer는 대규모 언어 모델(LLM)의 추론 성능을 획기적으로 개선하기 위해 설계된 CUDA 기반 시퀀스 추론 최적화 라이브러리입니다. 특히 KV 캐시(Key-Value Cache) 구조를 GPU 메모리 친화적으로 재설계하고, 토크나이즈된 입력의 반복적 연산을 줄임으로써 높은 속도와 낮은 지연(latency)을 동시에 제공합니다. FlashAttention2의 연산 최적화 기술을 활용합니다.1. 개념 및 정의 항목 설명 정의GPU 친화적으로 구현된 고속 시퀀스 추론 전용 LLM 추론 가속 엔진목적LLM 응답 생성 속도를 최대화하고 지연 시간 최소화필요성LLM의 실시간 대화 응답, RAG, 스트리밍 생성 등에서 추론 병목 해결FlashInfer는 inference 전용으로 설계되어 mult..