728x90
반응형

llm 보안 2

Context Window Firewall

개요Context Window Firewall(CWF)은 대규모 언어모델(LLM)의 입력 컨텍스트 창(context window)에 삽입되는 악성 지시문, 정보 탈취 프롬프트, 프라이버시 침해 내용을 탐지·차단하는 보안 기술이다. 특히 RAG, 멀티턴 대화, WebLLM 등에서 외부 삽입 콘텐츠로 인한 공격(예: 프롬프트 인젝션)을 방지하는 핵심 기법으로 주목받고 있다.1. 개념 및 정의**Context Window Firewall(CWF)**는 LLM 입력 시 구성되는 전체 컨텍스트(window) 내부를 실시간 분석하고, 정책에 위배되거나 위험성이 있는 텍스트 시퀀스를 탐지·조정·삭제하는 보안 계층이다.목적: 컨텍스트 내 무단 프롬프트 삽입(Prompt Injection), Jailbreak, 탈정보 ..

Topic 2025.07.14

Token-Level Filtering

개요대규모 언어 모델(LLM)을 활용한 텍스트 생성에서는 응답의 정확성, 품질, 다양성, 안전성을 제어하는 다양한 기법이 존재합니다. 그중에서도 가장 낮은 수준에서 작동하는 핵심 기술이 바로 **Token-Level Filtering(토큰 단위 필터링)**입니다. 이 기법은 모델이 출력할 다음 토큰 후보군에 대해 사전 정의된 기준으로 필터링 및 재정렬하여, 결과물의 품질을 정밀하게 제어할 수 있도록 합니다.1. 개념 및 정의Token-Level Filtering은 LLM이 다음 토큰을 예측할 때 출력하는 확률 분포(logits 또는 softmax 확률)에서, 부적절하거나 품질이 낮은 토큰을 제거 또는 확률 재조정하는 과정입니다. 이 과정은 디코딩 단계에 직접 개입하여, 단어 수준의 편향 제어, 위험 응답..

Topic 2025.05.25
728x90
반응형