728x90
반응형

2026/02/13 3

Bi-Encoder

개요Bi-Encoder는 문서 검색, 질문응답 시스템, 추천 시스템 등에서 활용되는 딥러닝 기반 모델 구조로, 쿼리와 문서를 각각 독립적인 인코더(Encoder)로 임베딩한 후, 벡터 유사도 계산을 통해 관련성 있는 결과를 효율적으로 검색할 수 있도록 설계된 구조입니다. 대규모 문서 컬렉션에서 빠른 검색이 가능하며, Dense Retriever의 핵심 아키텍처입니다.1. 개념 및 정의 항목 설명 비고 정의쿼리와 문서를 각각 독립된 인코더로 임베딩하여 유사도 계산Dense Retrieval의 기반 구조목적대규모 데이터에서 효율적이고 빠른 정보 검색실시간 QA 및 검색 서비스에 적합필요성Sparse 방식(BM25 등)의 한계를 극복의미 기반 검색 지원2. 특징항목설명비교독립 임베딩쿼리/문서 사전 임베딩으..

Topic 2026.02.13

Continuous Batching

개요Continuous Batching은 대규모 언어 모델(LLM) 추론에서 사용자 요청을 **고정된 타임슬롯(batch interval)**이 아닌, 실시간으로 수신되는 순서에 따라 동적으로 묶어 처리하는 배치 전략입니다. 이를 통해 응답 지연(latency)은 줄이고 GPU 활용률은 높이며, 특히 대화형 AI, AI 서비스 API 서버에서 효율적인 추론 처리를 가능하게 합니다. vLLM, TGI, TensorRT-LLM 등에서 적용되는 최신 배치 기법입니다.1. 개념 및 정의 항목 내용 비고 정의LLM 추론 시 요청을 고정 시간 기준 없이 지속적으로 batch로 구성하는 처리 방식streaming inference와 함께 사용목적latency와 throughput의 동시 개선응답 지연 감소 + G..

Topic 2026.02.13

PagedOptim

개요PagedOptim은 대규모 언어 모델(LLM)의 파인튜닝/훈련 과정에서 GPU 메모리를 효율적으로 활용하기 위한 페이징 기반 옵티마이저 구조를 갖춘 학습 최적화 프레임워크입니다. 기존 옵티마이저(Adam, AdamW 등)는 파라미터와 옵티마이저 상태(state)를 모두 GPU 메모리에 올려야 했지만, PagedOptim은 **옵티마이저 상태를 페이지 단위로 GPU-CPU/NVMe 간에 이동(페이징)**하여, 메모리 초과 없이 초대형 모델 훈련을 가능하게 합니다.1. 개념 및 정의 항목 내용 비고 정의옵티마이저 상태를 페이지 단위로 관리하며 GPU-CPU 간 페이징을 수행하는 옵티마이저 계층DeepSpeed/Colossal-AI 기반 구현 예 존재목적GPU 메모리 한계를 넘어 대규모 모델 훈련 가..

Topic 2026.02.13
728x90
반응형