728x90
반응형

llm추론 2

Flash Decoding

개요Flash Decoding은 LLM의 토큰 생성 속도를 획기적으로 향상시키기 위한 최신 디코딩 최적화 기술로, 추론 시 GPU 병목을 해소하고 응답 대기시간(latency)을 줄이는 데 초점을 맞춘 알고리즘입니다. 주로 실시간 챗봇, AI 비서, 스트리밍 생성형 AI 등에 적용되어 사용자 경험을 개선하고 서버 효율을 극대화합니다.1. 개념 및 정의Flash Decoding은 LLM의 디코딩 경로에서 계산 및 메모리 접근을 재구성하여, GPU 상에서 더 많은 병렬 처리를 가능하게 만드는 구조적 최적화 기법입니다.기본 구조: Non-AutoRegressive 디코딩 흐름에 가까운 최적화 구조핵심 전략: KV 캐시 재배열, Prefill/Decode 병렬화, 비동기 스트리밍 처리적용 범위: GPT 계열, ..

Topic 2025.05.22

Self-Consistency Prompting

개요Self-Consistency Prompting은 대형 언어 모델(LLM)의 응답 품질을 향상시키기 위한 추론 전략입니다. 이 방식은 단일 응답이 아닌 다양한 추론 경로를 생성하고, 그 중 가장 일관된 결과를 선택하여 보다 신뢰도 높은 답변을 도출합니다. 본 글에서는 이 기법의 개념, 기술적 원리, 구현 방식, 활용 사례를 체계적으로 정리합니다.1. 개념 및 정의 구분 내용 정의LLM에서 다양한 추론 경로를 생성한 후, 다수결 방식으로 일관된 응답을 선택하는 기법목적복잡한 문제 해결 시 추론 정확도 및 신뢰도 향상필요성단일 샘플 기반 출력의 불확실성 제거 및 안정성 강화2. 특징특징설명차별점다중 추론 생성다양한 Temperature 설정으로 복수의 응답 샘플 생성일반적인 프롬프트 1회 호출 방식과 ..

Topic 2025.05.18
728x90
반응형