728x90
반응형

llm보안 6

Purple Llama

개요생성형 AI(Generative AI)의 확산에 따라 AI 모델의 안전성(Safety) 및 **보안성(Security)**에 대한 요구가 점점 커지고 있습니다. 이에 대응하기 위해 Meta가 주도하여 공개한 오픈소스 프로젝트가 Purple Llama입니다. Purple Llama는 LLM과 멀티모달 AI 시스템의 위험성 평가, 오용 탐지, 출력 검증, 방어 전략을 위한 실용적인 리소스를 제공하는 프레임워크로, AI 모델의 책임 있는 사용과 배포를 돕기 위해 설계되었습니다.1. 개념 및 정의Purple Llama는 생성형 AI 시스템의 안전성과 보안성을 보장하기 위해 설계된 오픈소스 평가/방어 툴킷입니다. Meta는 이 프로젝트를 통해 기본 모델 및 응용 시스템의 취약점 평가, 위험 감지 정책 테스트,..

Topic 2025.07.10

GenAI Red-Team Toolkit

개요생성형 AI(Generative AI)의 급속한 확산은 기업과 사회에 혁신을 가져왔지만, 동시에 새로운 보안 위협과 공격 벡터를 낳고 있습니다. 특히 AI 시스템의 Prompt Injection, 정보 유출, 모델 탈취, 오용(Misuse) 등은 전통적인 보안 도구로는 감지하거나 방어하기 어려운 경우가 많습니다. 이에 따라 생성형 AI의 취약점을 식별하고 방어체계를 설계하기 위한 GenAI Red-Team Toolkit이 주목받고 있습니다. 이 도구는 보안 연구자, AI 엔지니어, 레드팀이 협력하여 모델 기반 공격 시뮬레이션과 방어 검증을 체계적으로 수행할 수 있도록 설계된 실전 툴킷입니다.1. 개념 및 정의GenAI Red-Team Toolkit은 생성형 AI 시스템을 대상으로 한 공격 시나리오 구..

Topic 2025.07.10

FERPA-Safe RAG Gateway

개요FERPA-Safe RAG Gateway는 RAG(Retrieval-Augmented Generation) 기반 AI 시스템이 FERPA(Family Educational Rights and Privacy Act)의 개인정보 보호 요건을 준수하면서 민감한 교육 데이터를 활용할 수 있도록 설계된 게이트웨이입니다. 텍스트 생성 AI가 검색 데이터에 접근하고 응답을 생성하는 전 과정에서 학생 정보 보호를 위한 필터링, 토큰 기반 접근 제어, 감사 추적 기능 등을 제공하여 교육 분야에서 안전하게 생성형 AI를 활용할 수 있도록 지원합니다.1. 개념 및 정의FERPA: 미국 연방법으로 학생 교육기록의 프라이버시 보호를 규정함RAG Gateway: 외부 검색 소스를 활용하는 AI 응답 구조에서 검색·생성 전후 ..

Topic 2025.07.06

Prompt Shielding

개요Prompt Shielding은 AI 모델, 특히 대형 언어 모델(LLM)을 대상으로 하는 악의적인 입력(Prompt Injection)으로부터 시스템을 보호하고 의도된 행동을 유지하기 위한 방어 기술이다. 본 글에서는 Prompt Shielding의 개념, 위협 유형, 방어 전략, 구현 기술 및 활용 사례를 다뤄 AI 기반 시스템의 보안 전략 수립에 실질적인 인사이트를 제공한다.1. 개념 및 정의 항목 설명 정의Prompt Shielding은 LLM 사용 시 의도치 않은 정보 유출, 기능 변경, 악성 명령 실행 등을 방지하기 위해 입력과 프롬프트의 구조를 보호하는 보안 기술이다.목적LLM 프롬프트 무결성 유지 및 시스템 행위 안전 보장필요성Prompt Injection, Jailbreak 공격 증..

Topic 2025.06.29

AI 에이전트 하이재킹(Agent Hijacking

개요AI 에이전트 하이재킹(Agent Hijacking)은 인공지능 시스템, 특히 자동화된 에이전트나 자율 실행 AI가 공격자에게 통제권을 탈취당하는 사이버 공격 유형입니다. 이는 명령어 조작, 학습 데이터 오염, 통신 경로 개입 등을 통해 발생하며, 개인정보 유출, 시스템 오작동, 악성 자동화로 이어질 수 있습니다.1. 개념 및 정의AI 에이전트 하이재킹 공격은 AI가 수행하는 작업 흐름을 공격자가 탈취하거나 변조하여 악의적인 목적을 수행하도록 조작하는 공격 방식입니다.주 대상: 챗봇, RPA, 자율 에이전트, 멀티에이전트 시스템공격 목표: 정보 유출, 정책 위반, 악성 실행 유도차이점: 기존 시스템 하이재킹보다 자율성 기반 AI의 조작이 핵심2. 특징 구분 AI 에이전트 하이재킹 일반 악성코드 공..

Topic 2025.06.24

Prompt Injection Mitigation

개요Prompt Injection은 생성형 AI(GPT 등) 시스템에서 사용자의 입력이 시스템 프롬프트나 의도된 동작을 오염시켜 악의적 결과를 유도하는 보안 위협입니다. 이 글에서는 Prompt Injection의 개념, 유형, 공격 사례와 함께 이를 방지하기 위한 실질적 대응 전략들을 소개합니다.1. 개념 및 정의Prompt Injection은 LLM(Large Language Model) 기반 시스템에 있어, 사용자 입력을 악용해 의도하지 않은 행동을 유발하는 공격입니다. 일반적으로 시스템 프롬프트나 내부 명령을 우회하거나 덮어쓰는 방식으로 이루어집니다.목적: LLM의 동작을 교란하거나 보안 정보 노출 유도유형: 직접 삽입(Direct injection), 반사 삽입(Indirect injection..

Topic 2025.06.16
728x90
반응형