728x90
반응형

llm 보안 23

Model Fingerprinting(모델 지문 식별 기술)

개요Model Fingerprinting은 특정 인공지능 모델의 고유한 특성을 식별하고 추적하기 위한 기술적 기법이다. 이는 모델 추출(Model Extraction), 무단 복제(Model Stealing), 지식 증류 기반 탈취 공격 등으로부터 지적 재산권을 보호하고, 모델 출처를 검증하기 위한 핵심 보안 전략으로 활용된다. 최근 상용 AI API와 대규모 언어모델(LLM)의 확산에 따라 모델 무단 사용 여부를 판별하는 기술의 중요성이 급격히 증가하고 있다.1. 개념 및 정의Model Fingerprinting은 모델이 특정 입력 집합에 대해 생성하는 고유한 출력 패턴 또는 결정 경계 특성을 활용하여 해당 모델의 신원을 식별하는 기법이다.이는 디지털 콘텐츠의 워터마킹과 유사하지만, 모델 동작 특성(b..

Topic 2026.03.18

Membership Inference Attack (MIA)

개요Membership Inference Attack(MIA)은 특정 데이터 샘플이 머신러닝 모델의 학습 데이터에 포함되었는지 여부를 추론하는 프라이버시 공격 기법이다. 공격자는 모델의 출력(확률 분포, confidence score, 응답 패턴 등)을 분석하여 해당 데이터가 훈련 세트에 사용되었는지를 예측한다.특히 의료, 금융, 개인화 추천 시스템과 같이 민감한 데이터를 사용하는 AI 모델에서 MIA는 심각한 개인정보 유출 위험을 초래할 수 있다. LLM 및 MLaaS 환경에서도 모델 응답 확률과 토큰 분포를 기반으로 유사한 공격 가능성이 제기되고 있다.1. 개념 및 정의Membership Inference Attack은 모델이 학습 데이터에 대해 일반적으로 더 높은 confidence를 보이는 특성을..

Topic 2026.03.14

Clone Model(모델 복제)

개요Clone Model(모델 복제)은 기존 AI 모델(Target Model)의 기능, 의사결정 경계, 출력 패턴을 재현하기 위해 학습된 복제 모델을 의미한다. 이는 합법적 목적(모델 경량화, 테스트, 연구)으로 활용될 수 있지만, 보안 관점에서는 Model Stealing, Model Extraction, Knockoff Nets와 같은 공격의 결과물로 사용될 수 있다.특히 API 형태로 제공되는 LLM 및 MLaaS 환경에서는 반복 질의를 통해 출력 데이터를 수집한 뒤, 이를 기반으로 Clone Model을 학습시키는 방식이 현실적인 위협으로 평가된다.1. 개념 및 정의Clone Model은 원본 모델의 입력–출력 관계를 학습하여 기능적으로 유사한 모델을 생성하는 접근 방식이다. 내부 파라미터에 접..

Topic 2026.03.13

Substitute Model(대체 모델)

개요Substitute Model(대체 모델)은 공격자가 블랙박스 접근만 가능한 목표 모델(Target Model)을 직접 분석할 수 없을 때, 입력–출력 쌍을 기반으로 근사 모델을 학습하여 원본 모델의 의사결정 경계를 추정하는 전략이다. 이는 특히 Adversarial Attack(적대적 공격) 및 Model Extraction 공격에서 핵심적으로 활용된다.Goodfellow 등 연구 이후, 블랙박스 환경에서도 공격이 가능하다는 사실이 입증되었으며, Substitute Model은 Gradient 기반 공격을 우회적으로 수행하기 위한 핵심 메커니즘으로 자리잡았다.1. 개념 및 정의Substitute Model은 목표 모델의 예측 결과를 학습 데이터로 활용하여 기능적으로 유사한 모델을 구축하는 방식이다...

Topic 2026.03.12

Surrogate Model(대체 모델)

개요Surrogate Model(대체 모델)은 원본 모델(Target Model)의 동작을 근사(Approximation)하거나 모방(Imitation)하기 위해 학습된 보조 모델이다. 주로 블랙박스 환경에서 입력–출력 쌍을 활용하여 원본 모델의 의사결정 경계를 재현하거나, 해석 가능성(Explainability)을 높이기 위한 분석 도구로 사용된다.AI 보안 관점에서는 Model Extraction, Model Stealing, Knockoff Nets 등의 공격에서 핵심 구성 요소로 활용되며, 반대로 방어 관점에서는 모델 해석, 테스트, 성능 분석을 위한 합법적 도구로도 사용된다.1. 개념 및 정의Surrogate Model은 원본 모델의 내부 구조나 파라미터에 직접 접근하지 않고, 출력 결과를 기반..

Topic 2026.03.11

Query-based Attack(질의 기반 공격)

개요Query-based Attack은 공격자가 대상 AI 모델 또는 MLaaS/LLM API에 반복적으로 질의를 수행하여 출력 결과를 수집하고, 이를 분석해 모델의 내부 동작, 의사결정 경계, 민감 정보 또는 취약점을 추론하는 블랙박스 공격 기법이다. 내부 파라미터 접근 없이도 입력–출력 관계만으로 모델 정보를 추출할 수 있다는 점에서 탐지와 방어가 어렵다.특히 LLM, 이미지 분류 모델, 추천 시스템 등 API 형태로 공개된 AI 서비스가 확산되면서 Query 기반 공격은 모델 탈취(Model Stealing), 모델 추출(Model Extraction), 모델 반전(Model Inversion) 등의 상위 공격 기법의 핵심 메커니즘으로 활용된다.1. 개념 및 정의Query-based Attack은 ..

Topic 2026.03.10

Functionally Equivalent Extraction(FEE)

개요Functionally Equivalent Extraction(FEE)는 공격자가 블랙박스 접근만을 활용하여 목표 모델(Target Model)과 기능적으로 동일한(Functionally Equivalent) 모델을 재구성하는 고도화된 모델 탈취 공격 기법이다. 단순 성능 근사가 아닌, 입력 공간 전반에 걸쳐 동일하거나 매우 유사한 의사결정 경계를 복원하는 것을 목표로 한다.특히 MLaaS 및 LLM API 환경에서 내부 파라미터를 직접 획득하지 않더라도 모델의 기능적 동등성을 확보할 수 있다는 점에서 지적 재산(IP) 및 상업적 가치에 심각한 위협이 된다.1. 개념 및 정의Functionally Equivalent Extraction은 입력–출력 쌍을 반복적으로 수집하고, 의사결정 경계를 체계적으로..

Topic 2026.03.09

Knockoff Nets(모델 모방 공격 기법)

개요Knockoff Nets는 공개된 머신러닝 모델 또는 API에 블랙박스 방식으로 질의(Query)를 수행하여 출력 데이터를 수집한 뒤, 이를 기반으로 유사한 대체 모델(Surrogate Model)을 학습시키는 모델 모방(Model Imitation) 공격 기법이다. 2019년 Orekondy et al.의 논문 *"Knockoff Nets: Stealing Functionality of Black-Box Models"*에서 체계적으로 제안되었으며, 제한된 정보만으로도 고성능 모델을 근사할 수 있음을 실험적으로 입증하였다.특히 MLaaS(Machine Learning as a Service) 및 LLM API 환경에서 모델의 지적 재산(IP)과 상업적 가치를 침해할 수 있는 현실적인 위협으로 평가된다..

Topic 2026.03.09

Model Stealing Attack(모델 탈취 공격)

개요Model Stealing Attack은 공격자가 공개된 머신러닝 또는 LLM API에 반복적으로 질의를 수행하여 출력 결과를 수집하고, 이를 기반으로 유사한 모델(Surrogate Model)을 학습시켜 원본 모델의 기능을 복제하는 공격 기법이다. 이는 Model Extraction Attack(MEA)과 유사한 개념으로 사용되며, 특히 MLaaS(Machine Learning as a Service) 환경에서 주요 보안 위협으로 간주된다.클라우드 기반 AI 서비스가 확산됨에 따라 모델 자체가 핵심 자산이 되었으며, 모델 탈취는 기업의 지적 재산(IP), 경쟁 우위, API 수익 구조를 직접적으로 침해할 수 있다.1. 개념 및 정의Model Stealing Attack은 블랙박스 접근 환경에서 입력..

Topic 2026.03.08

Model Extraction Attack (MEA)

개요Model Extraction Attack(MEA)는 공격자가 공개된 머신러닝 또는 대규모 언어 모델(LLM) API에 반복적으로 질의(Query)를 보내 모델의 동작을 학습한 후, 이를 기반으로 유사한 대체 모델(Surrogate Model)을 복제하는 공격 기법이다. 이는 모델 파라미터 자체를 직접 탈취하지 않더라도, 출력 응답 패턴을 분석하여 모델의 의사결정 경계를 재구성하는 방식으로 이루어진다.클라우드 기반 AI 서비스가 확산되면서, API 형태로 제공되는 모델의 지적 재산(IP) 보호와 비용 보호 관점에서 MEA는 주요 보안 위협으로 부상하고 있다.1. 개념 및 정의Model Extraction Attack은 블랙박스 접근 환경에서 입력과 출력만을 활용하여 목표 모델의 기능을 근사하는 모델을..

Topic 2026.03.08

Model Theft

개요Model Theft(모델 탈취)는 대규모 언어 모델(LLM) 과 같은 인공지능 모델이 불법적으로 복제·도용되어 발생하는 보안 및 지적재산권(IP) 위협입니다. 공격자는 합법적으로 접근한 모델의 API, 학습 데이터, 혹은 추론 결과를 이용해 원본 모델을 복제하거나 역설계합니다.1. 개념 및 정의 구분 내용 정의Model Theft는 정당한 소유자가 아닌 공격자가 AI 모델을 불법적으로 복제·활용하는 행위입니다.목적지적재산권 침해, 경쟁 우위 확보, 악용된 서비스 배포필요성모델 개발 비용은 막대하지만, 탈취는 상대적으로 용이하여 심각한 경제적 손실 유발이는 OWASP LLM Top 10의 열 번째 주요 위험 요소로 지정되어 있습니다.2. 특징특징설명비교API 남용모델 API를 대량 호출해 동작을 재..

Topic 2025.09.22

Overreliance

개요Overreliance(과도한 의존)는 대규모 언어 모델(LLM) 의 출력 결과를 사용자가 비판적 검증 없이 그대로 수용할 때 발생하는 보안 및 운영상의 위험입니다. LLM은 설득력 있는 텍스트를 생성하지만, 항상 사실적이거나 안전하지 않을 수 있기 때문에 무비판적 의존은 심각한 피해를 초래할 수 있습니다.1. 개념 및 정의 구분 내용 정의Overreliance는 LLM 출력에 대한 사용자 또는 시스템의 무비판적 신뢰를 의미합니다.목적AI 활용 시 인간의 검증 절차를 포함해 오류 및 위험을 최소화필요성LLM은 불완전한 정보와 환각(Hallucination)을 생성할 수 있음이는 OWASP LLM Top 10의 아홉 번째 주요 보안 위험으로 지정됩니다.2. 특징특징설명비교환각(Hallucination..

Topic 2025.09.22

Excessive Agency

개요Excessive Agency(과도한 자율성)는 대규모 언어 모델(LLM) 기반 시스템이 과도한 권한과 자율적 의사결정을 허용받아 발생하는 보안 위험을 의미합니다. AI가 사용자 대신 자동으로 행동하거나 외부 시스템과 상호작용할 때, 제어되지 않은 권한 남용이나 오작동이 발생할 수 있습니다.1. 개념 및 정의 구분 내용 정의Excessive Agency는 LLM이 불필요하게 광범위한 권한을 갖고 자율적으로 행동할 때 발생하는 위험입니다.목적LLM의 권한을 최소화하고 안전한 범위 내에서 동작 보장필요성AI 에이전트·플러그인 사용 확산으로 LLM의 권한 오남용 가능성 증가이는 OWASP LLM Top 10의 여덟 번째 주요 위험 요소로 지정되어 있습니다.2. 특징특징설명비교권한 과다 부여필요 이상의 파..

Topic 2025.09.22

Insecure Plugin Use

개요Insecure Plugin Use(플러그인 오용 취약점)는 대규모 언어 모델(LLM) 기반 서비스에서 외부 플러그인·도구와의 연계 과정에서 발생하는 보안 위협입니다. 플러그인은 LLM의 기능을 확장하지만, 검증되지 않은 플러그인 사용은 민감 데이터 유출, 악성 코드 실행, 공급망 공격 등으로 이어질 수 있습니다.1. 개념 및 정의 구분 내용 정의Insecure Plugin Use는 검증되지 않은 플러그인 또는 취약한 플러그인을 사용해 발생하는 보안 문제입니다.목적플러그인 활용 시 안전한 실행 환경을 보장필요성플러그인은 강력한 기능을 제공하지만 동시에 공격 벡터를 확대이는 OWASP LLM Top 10의 일곱 번째 위험 요소로 분류됩니다.2. 특징특징설명비교외부 의존성플러그인은 외부 서비스/API에..

Topic 2025.09.22

Sensitive Information Disclosure

개요Sensitive Information Disclosure(민감 정보 노출)는 대규모 언어 모델(LLM) 기반 서비스가 사용자의 개인정보, 비밀 데이터, 또는 내부 시스템 정보를 의도치 않게 출력하는 보안 취약점입니다. 이는 AI 응답의 예측 불가성과 데이터 관리 미비로 인해 발생하며, 사용자 신뢰와 규제 준수에 치명적인 영향을 미칠 수 있습니다.1. 개념 및 정의 구분 내용 정의민감 정보 노출은 LLM 출력에 개인정보, 기밀 데이터, 내부 운영 정보 등이 포함되는 보안 취약점입니다.목적민감 데이터의 유출을 방지하고 안전한 LLM 활용 환경 조성필요성LLM은 학습 및 프롬프트 처리 과정에서 의도치 않게 민감 데이터를 포함할 수 있음이는 OWASP LLM Top 10의 여섯 번째 주요 보안 위험으로 ..

Topic 2025.09.21

Supply Chain Vulnerabilities

개요Supply Chain Vulnerabilities(공급망 취약점)는 AI 모델 개발 및 배포 과정에서 사용되는 외부 라이브러리, 데이터셋, 모델, 플러그인 등의 무결성 부족으로 발생하는 보안 위협입니다. LLM 및 AI 서비스의 복잡한 생태계 속에서 공급망 보안은 AI 신뢰성을 좌우하는 핵심 요소로 자리잡고 있습니다.1. 개념 및 정의 구분 내용 정의AI 개발과 운영 과정에서 외부 컴포넌트(코드, 데이터, 모델 등)가 변조·악용되어 보안 위협이 발생하는 현상목적공급망 전반의 무결성·신뢰성을 확보하여 AI 서비스 보호필요성AI는 오픈소스와 외부 데이터 의존도가 높아 공급망 취약성 위험이 커짐이는 OWASP LLM Top 10의 다섯 번째 위험 요소로 분류됩니다.2. 특징특징설명비교복잡한 생태계다수의..

Topic 2025.09.21

Model Denial of Service (Model DoS)

개요Model Denial of Service(DoS)는 대규모 언어 모델(LLM) 과 같은 AI 시스템에 과도한 요청이나 악의적 입력을 보내 모델 응답 속도를 저하시키거나 정상 서비스를 불가능하게 만드는 공격 기법입니다. 이는 기존 네트워크 DoS 공격과 유사하지만, AI 모델의 고비용 연산 자원을 표적으로 삼는다는 점에서 차별화됩니다.1. 개념 및 정의 구분 내용 정의Model DoS는 과도한 요청 처리나 악성 프롬프트를 통해 모델의 응답 불가 상태를 유발하는 공격입니다.목적모델 가용성 저하, 서비스 중단, 비용 상승 유발필요성LLM은 연산 비용이 높아, DoS 공격 시 피해 규모가 기존 시스템보다 큼이 공격은 OWASP LLM Top 10에서 네 번째 주요 위험 요소로 지정되었습니다.2. 특징특징..

Topic 2025.09.21

Training Data Poisoning

개요Training Data Poisoning은 머신러닝 및 대규모 언어 모델(LLM)의 학습 데이터셋을 조작하여 모델 성능을 왜곡하거나 악용하는 공격 기법입니다. 공격자는 의도적으로 잘못된 데이터를 삽입해 모델이 오작동하도록 유도하며, 이는 AI 신뢰성과 보안을 위협하는 핵심 문제로 부각되고 있습니다.1. 개념 및 정의 구분 내용 정의Training Data Poisoning은 학습 데이터에 악의적·조작된 데이터를 포함시켜 모델의 정확성과 안정성을 저해하는 공격입니다.목적모델 성능 저하, 특정 결과 왜곡, 백도어 삽입 등필요성AI가 데이터 중심으로 학습하기 때문에 데이터 무결성이 보안의 핵심 요소이 공격은 OWASP LLM Top 10의 세 번째 주요 위험 요소로 분류됩니다.2. 특징특징설명비교데이터..

Topic 2025.09.21

Insecure Output Handling

개요Insecure Output Handling은 대규모 언어 모델(LLM) 이 생성한 출력을 적절히 검증하지 않고 직접 사용하는 경우 발생하는 보안 취약점입니다. 이는 모델의 응답을 신뢰하여 후속 시스템이나 사용자 인터페이스에 전달할 때 악성 코드 실행, 데이터 유출, 시스템 오작동을 유발할 수 있습니다.1. 개념 및 정의 구분 내용정의Insecure Output Handling은 LLM의 출력을 무검증 상태로 활용하여 발생하는 보안 문제를 의미합니다.목적LLM 응답을 안전하게 검증·처리하여 보안 사고 예방필요성LLM은 비결정적이고 예측 불가한 출력을 생성하기 때문에 보안적 검증 절차가 필수이는 OWASP LLM Top 10에서 두 번째 위험 요소로 정의된 핵심 취약점입니다.2. 특징특징설명비교비결정성..

Topic 2025.09.20

Prompt Injection

개요Prompt Injection은 대규모 언어 모델(LLM, Large Language Model) 을 겨냥한 보안 공격 기법으로, 모델의 입력(Prompt)을 악의적으로 조작하여 의도하지 않은 출력을 유도하는 방식입니다. 이는 SQL Injection과 유사하게, 모델의 동작을 교란하거나 민감한 정보를 유출시키는 심각한 보안 문제로 부각되고 있습니다.1. 개념 및 정의 구분 내용 정의Prompt Injection은 악성 프롬프트를 통해 모델이 원래 의도와 다르게 동작하도록 유도하는 공격입니다.목적모델 출력 왜곡, 민감 정보 탈취, 시스템 접근 유도필요성생성형 AI 확산과 함께 사용자 입력을 신뢰하는 구조적 취약성이 확대됨Prompt Injection은 AI 보안의 가장 주목받는 위협 중 하나입니다...

Topic 2025.09.20

OWASP LLM Top 10

개요OWASP LLM Top 10은 대규모 언어 모델(LLM, Large Language Model) 보안 위협과 이에 대한 대응 방안을 정리한 국제 보안 가이드라인입니다. ChatGPT, Claude, LLaMA와 같은 생성형 AI가 확산됨에 따라, 모델 자체와 이를 활용한 서비스의 보안 문제가 대두되고 있으며, OWASP LLM Top 10은 이에 대한 표준화된 위험 인식 체계를 제공합니다.1. 개념 및 정의 구분 내용 정의OWASP LLM Top 10은 LLM 보안과 관련된 주요 위험 10가지를 정의하고 완화 전략을 제시하는 문서입니다.목적AI 보안 위협 인식 제고, 안전한 LLM 활용 가이드 제공필요성LLM은 복잡성과 불확실성으로 인해 기존 보안 프레임워크로는 충분히 보호되지 않음OWASP는 애..

Topic 2025.09.20

Context Window Firewall

개요Context Window Firewall(CWF)은 대규모 언어모델(LLM)의 입력 컨텍스트 창(context window)에 삽입되는 악성 지시문, 정보 탈취 프롬프트, 프라이버시 침해 내용을 탐지·차단하는 보안 기술이다. 특히 RAG, 멀티턴 대화, WebLLM 등에서 외부 삽입 콘텐츠로 인한 공격(예: 프롬프트 인젝션)을 방지하는 핵심 기법으로 주목받고 있다.1. 개념 및 정의**Context Window Firewall(CWF)**는 LLM 입력 시 구성되는 전체 컨텍스트(window) 내부를 실시간 분석하고, 정책에 위배되거나 위험성이 있는 텍스트 시퀀스를 탐지·조정·삭제하는 보안 계층이다.목적: 컨텍스트 내 무단 프롬프트 삽입(Prompt Injection), Jailbreak, 탈정보 ..

Topic 2025.07.14

Token-Level Filtering

개요대규모 언어 모델(LLM)을 활용한 텍스트 생성에서는 응답의 정확성, 품질, 다양성, 안전성을 제어하는 다양한 기법이 존재합니다. 그중에서도 가장 낮은 수준에서 작동하는 핵심 기술이 바로 **Token-Level Filtering(토큰 단위 필터링)**입니다. 이 기법은 모델이 출력할 다음 토큰 후보군에 대해 사전 정의된 기준으로 필터링 및 재정렬하여, 결과물의 품질을 정밀하게 제어할 수 있도록 합니다.1. 개념 및 정의Token-Level Filtering은 LLM이 다음 토큰을 예측할 때 출력하는 확률 분포(logits 또는 softmax 확률)에서, 부적절하거나 품질이 낮은 토큰을 제거 또는 확률 재조정하는 과정입니다. 이 과정은 디코딩 단계에 직접 개입하여, 단어 수준의 편향 제어, 위험 응답..

Topic 2025.05.25
728x90
반응형