728x90
반응형

ai안전성 5

Prompt Injection Detector (PID)

개요Prompt Injection Detector(PID)는 대형 언어 모델(LLM) 기반 애플리케이션에서 프롬프트 인젝션(Prompt Injection) 공격을 탐지하고 방지하기 위한 보안 기술입니다. 사용자가 모델의 기대 행동을 우회하거나 악의적인 명령을 삽입해 LLM의 출력을 의도치 않게 조작하는 위협을 실시간으로 감시하고, 대응할 수 있도록 설계된 보안 컴포넌트로, LLM 보안 거버넌스의 핵심 구성 요소로 부상하고 있습니다.1. 개념 및 정의PID는 사용자 입력 또는 외부 프롬프트가 시스템 프롬프트나 보안 경계를 벗어나는 의도적 조작(Prompt Injection)을 시도하는지를 분석하고, 이를 탐지하여 차단 또는 경고하는 보안 메커니즘입니다.Prompt Injection은 예를 들어 “Ignor..

Topic 2025.07.26

5 Pillars

개요생성형 AI가 폭넓게 확산되면서 그 영향력은 기술 영역을 넘어 사회, 경제, 윤리 전반으로 확대되고 있습니다. 이에 따라 기업과 기관은 AI를 단순한 도구가 아니라 책임 있는 기술 주체로 다루기 위한 새로운 기준을 필요로 하고 있습니다. 이러한 맥락에서 등장한 개념이 바로 **“5 Pillars”**입니다. 이는 AI 시스템의 신뢰성과 안전성을 확보하기 위한 **5가지 핵심 원칙 또는 기둥(Pillars)**을 정의하는 프레임워크로, 글로벌 기술 기업과 학계, 정책 기관에서 공통적으로 채택되며 널리 논의되고 있습니다.1. 개념 및 정의5 Pillars는 생성형 AI를 안전하고 신뢰 가능한 방식으로 개발·운영하기 위해 필요한 다섯 가지 핵심 가치 또는 실천 원칙을 구조화한 개념입니다. 보통 다음 다섯 ..

Topic 2025.07.11

FOCUS Spec

개요AI 모델의 규모와 영향력이 확대되면서, 단순한 기술 성능을 넘어서 **책임성(Accountability), 투명성(Transparency), 안전성(Safety)**에 대한 요구가 높아지고 있습니다. 특히 다양한 산업 분야에서 AI를 도입하는 과정에서 신뢰 가능한 공개 프레임워크와 검증 기준의 부재는 도입의 장애 요소로 작용하고 있습니다. 이를 해결하기 위해 Meta AI, MLCommons, Hugging Face 등 주요 기관들이 협력해 제안한 것이 바로 **FOCUS(Frontier Open-Compute Unified Specification)**입니다. FOCUS Spec은 생성형 AI 시스템의 개발 및 배포 시 필수적인 기술·윤리적 속성을 명시하는 **공개 사양(Specification)..

Topic 2025.07.11

Purple Llama

개요생성형 AI(Generative AI)의 확산에 따라 AI 모델의 안전성(Safety) 및 **보안성(Security)**에 대한 요구가 점점 커지고 있습니다. 이에 대응하기 위해 Meta가 주도하여 공개한 오픈소스 프로젝트가 Purple Llama입니다. Purple Llama는 LLM과 멀티모달 AI 시스템의 위험성 평가, 오용 탐지, 출력 검증, 방어 전략을 위한 실용적인 리소스를 제공하는 프레임워크로, AI 모델의 책임 있는 사용과 배포를 돕기 위해 설계되었습니다.1. 개념 및 정의Purple Llama는 생성형 AI 시스템의 안전성과 보안성을 보장하기 위해 설계된 오픈소스 평가/방어 툴킷입니다. Meta는 이 프로젝트를 통해 기본 모델 및 응용 시스템의 취약점 평가, 위험 감지 정책 테스트,..

Topic 2025.07.10

Constitutional AI

개요Constitutional AI는 인공지능 시스템이 사람의 지시나 가치 판단 없이도 스스로 윤리적·법적으로 더 나은 결정을 내릴 수 있도록 학습시키는 기술 패러다임입니다. AI 모델에 일련의 “헌법(Constitution)” 문서를 명시하고, 이를 기반으로 자기 검열(Self-Critique)과 개선(Self-Improvement)을 반복하여 인간 개입 없이도 안전하고 일관된 행동을 유도하는 방식입니다. Anthropic의 Claude 모델 개발을 통해 본격화되었으며, LLM 안전성의 새로운 기준으로 떠오르고 있습니다.1. 개념 및 정의 구분 내용 정의AI가 사전에 주어진 윤리/가이드라인(헌법)에 따라 스스로 판단과 응답을 조정하도록 학습하는 방식목적인간 피드백 없이도 윤리성과 일관성을 갖춘 AI ..

Topic 2025.05.19
728x90
반응형