728x90
반응형

프롬프트보안 3

Llama Guard

개요Llama Guard는 Meta AI에서 개발한 콘텐츠 안전성(Content Safety) 필터링 모델로, LLM(Large Language Model) 기반 시스템의 입력과 출력을 정밀하게 평가하고 유해성, 편향, 악용 가능성을 판단합니다. 특히 Llama 및 다양한 오픈소스 LLM과 통합 가능한 구조로 설계되어, AI 안전성과 윤리적 사용을 강화하는 데 핵심 역할을 합니다.1. 개념 및 정의 항목 내용 정의LLM 입력/출력에 대한 정책 기반 콘텐츠 안전성 판단 모델목적AI 응답의 유해성 방지 및 사용자 안전 보호필요성LLM이 악용되거나 유해 콘텐츠를 생성하는 것을 방지하기 위함2. 주요 특징특징설명장점정책 기반 분류기Meta의 콘텐츠 정책 기준에 따라 입력/출력 분류일관된 안전성 검토 가능Ins..

Topic 2025.12.21

Prompt Injection Detector (PID)

개요Prompt Injection Detector(PID)는 대형 언어 모델(LLM) 기반 애플리케이션에서 프롬프트 인젝션(Prompt Injection) 공격을 탐지하고 방지하기 위한 보안 기술입니다. 사용자가 모델의 기대 행동을 우회하거나 악의적인 명령을 삽입해 LLM의 출력을 의도치 않게 조작하는 위협을 실시간으로 감시하고, 대응할 수 있도록 설계된 보안 컴포넌트로, LLM 보안 거버넌스의 핵심 구성 요소로 부상하고 있습니다.1. 개념 및 정의PID는 사용자 입력 또는 외부 프롬프트가 시스템 프롬프트나 보안 경계를 벗어나는 의도적 조작(Prompt Injection)을 시도하는지를 분석하고, 이를 탐지하여 차단 또는 경고하는 보안 메커니즘입니다.Prompt Injection은 예를 들어 “Ignor..

Topic 2025.07.26

Risk Atlas for LLM

개요Risk Atlas for LLM은 대규모 언어 모델(Large Language Model)의 설계, 배포, 운영 과정에서 발생할 수 있는 리스크를 체계적으로 식별하고 평가·관리하기 위한 프레임워크입니다. 개인정보 유출, 부정확한 응답, 편향, 보안 침해 등 다양한 위험을 사전에 분류하고 대응 전략을 수립함으로써, 기업 및 기관이 안전하고 책임감 있게 LLM을 활용할 수 있도록 돕습니다.1. 개념 및 정의Risk Atlas란 LLM 관련 리스크를 카테고리화하고, 각 리스크에 대한 영향도와 발생 가능성을 시각화한 지표 체계를 의미합니다.LLM: 대량의 자연어 데이터를 기반으로 학습된 언어 생성 모델 (예: GPT, PaLM)Risk Atlas 목적: LLM 기반 서비스의 투명성, 책임성, 보안성 확보관..

Topic 2025.06.25
728x90
반응형