728x90
반응형

ai security 12

GenAI Data Leakage(생성형 AI 데이터 유출)

개요GenAI Data Leakage는 ChatGPT, Copilot, Claude 등 생성형 AI(Generative AI)를 사용하는 과정에서 기업의 민감 정보, 개인정보, 소스코드, 내부 문서 등이 외부 AI 시스템으로 입력되거나 저장되면서 발생하는 데이터 유출 위험을 의미한다.생성형 AI는 자연어 기반 인터페이스를 통해 사용자가 쉽게 데이터를 입력할 수 있도록 설계되어 있기 때문에, 사용자 인지 없이 민감 정보가 외부로 전송되는 문제가 발생할 수 있다. 특히 SaaS 기반 AI 서비스는 클라우드 환경에서 데이터를 처리하므로 기업 내부 데이터 경계가 모호해지는 문제가 있다.최근 기업에서는 Shadow AI, Browser Security, DLP(Data Loss Prevention) 관점에서 Ge..

Topic 2026.04.03

Google SAIF (Secure AI Framework)

개요Google SAIF(Secure AI Framework)는 Google이 제안한 인공지능 보안 프레임워크로, AI 시스템의 설계·개발·운영 전반에서 발생할 수 있는 보안 위험을 체계적으로 관리하기 위한 보안 전략 모델이다. 이 프레임워크는 기존 사이버 보안 원칙을 AI 환경에 적용하면서도 AI 특유의 공격 벡터와 위험 요소를 고려하여 설계되었다.SAIF는 데이터, 모델, 인프라, 애플리케이션 전반에 걸쳐 AI 보안을 통합적으로 관리하도록 설계되었으며, 특히 생성형 AI와 대규모 언어모델(LLM) 환경에서 중요한 보안 가이드라인으로 활용되고 있다.1. 개념 및 정의Google SAIF는 AI 시스템 전반에 보안 설계를 적용하여 AI 모델과 데이터, 파이프라인, 사용자 인터페이스까지 포함한 전체 AI ..

Topic 2026.03.27

Fidelity(모델 충실도)

개요Fidelity(모델 충실도)는 원본 모델(Target Model)과 대체 모델(Surrogate/Clone Model) 또는 설명 모델(Explainable Model) 간의 예측 결과가 얼마나 일치하는지를 측정하는 지표이다. 특히 Model Extraction, Knowledge Distillation, Explainable AI(XAI), Adversarial Attack 분석 등 다양한 AI 보안 및 해석 영역에서 핵심 평가 기준으로 활용된다.모델 충실도는 단순 정확도(Accuracy)와는 다르며, 특정 데이터셋에 대해 두 모델의 출력이 얼마나 동일하거나 유사한지를 정량적으로 평가하는 개념이다.1. 개념 및 정의Fidelity는 일반적으로 다음과 같은 질문에 답하기 위한 지표이다.대체 모델이 ..

Topic 2026.03.15

Membership Inference Attack (MIA)

개요Membership Inference Attack(MIA)은 특정 데이터 샘플이 머신러닝 모델의 학습 데이터에 포함되었는지 여부를 추론하는 프라이버시 공격 기법이다. 공격자는 모델의 출력(확률 분포, confidence score, 응답 패턴 등)을 분석하여 해당 데이터가 훈련 세트에 사용되었는지를 예측한다.특히 의료, 금융, 개인화 추천 시스템과 같이 민감한 데이터를 사용하는 AI 모델에서 MIA는 심각한 개인정보 유출 위험을 초래할 수 있다. LLM 및 MLaaS 환경에서도 모델 응답 확률과 토큰 분포를 기반으로 유사한 공격 가능성이 제기되고 있다.1. 개념 및 정의Membership Inference Attack은 모델이 학습 데이터에 대해 일반적으로 더 높은 confidence를 보이는 특성을..

Topic 2026.03.14

Clone Model(모델 복제)

개요Clone Model(모델 복제)은 기존 AI 모델(Target Model)의 기능, 의사결정 경계, 출력 패턴을 재현하기 위해 학습된 복제 모델을 의미한다. 이는 합법적 목적(모델 경량화, 테스트, 연구)으로 활용될 수 있지만, 보안 관점에서는 Model Stealing, Model Extraction, Knockoff Nets와 같은 공격의 결과물로 사용될 수 있다.특히 API 형태로 제공되는 LLM 및 MLaaS 환경에서는 반복 질의를 통해 출력 데이터를 수집한 뒤, 이를 기반으로 Clone Model을 학습시키는 방식이 현실적인 위협으로 평가된다.1. 개념 및 정의Clone Model은 원본 모델의 입력–출력 관계를 학습하여 기능적으로 유사한 모델을 생성하는 접근 방식이다. 내부 파라미터에 접..

Topic 2026.03.13

Substitute Model(대체 모델)

개요Substitute Model(대체 모델)은 공격자가 블랙박스 접근만 가능한 목표 모델(Target Model)을 직접 분석할 수 없을 때, 입력–출력 쌍을 기반으로 근사 모델을 학습하여 원본 모델의 의사결정 경계를 추정하는 전략이다. 이는 특히 Adversarial Attack(적대적 공격) 및 Model Extraction 공격에서 핵심적으로 활용된다.Goodfellow 등 연구 이후, 블랙박스 환경에서도 공격이 가능하다는 사실이 입증되었으며, Substitute Model은 Gradient 기반 공격을 우회적으로 수행하기 위한 핵심 메커니즘으로 자리잡았다.1. 개념 및 정의Substitute Model은 목표 모델의 예측 결과를 학습 데이터로 활용하여 기능적으로 유사한 모델을 구축하는 방식이다...

Topic 2026.03.12

Surrogate Model(대체 모델)

개요Surrogate Model(대체 모델)은 원본 모델(Target Model)의 동작을 근사(Approximation)하거나 모방(Imitation)하기 위해 학습된 보조 모델이다. 주로 블랙박스 환경에서 입력–출력 쌍을 활용하여 원본 모델의 의사결정 경계를 재현하거나, 해석 가능성(Explainability)을 높이기 위한 분석 도구로 사용된다.AI 보안 관점에서는 Model Extraction, Model Stealing, Knockoff Nets 등의 공격에서 핵심 구성 요소로 활용되며, 반대로 방어 관점에서는 모델 해석, 테스트, 성능 분석을 위한 합법적 도구로도 사용된다.1. 개념 및 정의Surrogate Model은 원본 모델의 내부 구조나 파라미터에 직접 접근하지 않고, 출력 결과를 기반..

Topic 2026.03.11

Query-based Attack(질의 기반 공격)

개요Query-based Attack은 공격자가 대상 AI 모델 또는 MLaaS/LLM API에 반복적으로 질의를 수행하여 출력 결과를 수집하고, 이를 분석해 모델의 내부 동작, 의사결정 경계, 민감 정보 또는 취약점을 추론하는 블랙박스 공격 기법이다. 내부 파라미터 접근 없이도 입력–출력 관계만으로 모델 정보를 추출할 수 있다는 점에서 탐지와 방어가 어렵다.특히 LLM, 이미지 분류 모델, 추천 시스템 등 API 형태로 공개된 AI 서비스가 확산되면서 Query 기반 공격은 모델 탈취(Model Stealing), 모델 추출(Model Extraction), 모델 반전(Model Inversion) 등의 상위 공격 기법의 핵심 메커니즘으로 활용된다.1. 개념 및 정의Query-based Attack은 ..

Topic 2026.03.10

Functionally Equivalent Extraction(FEE)

개요Functionally Equivalent Extraction(FEE)는 공격자가 블랙박스 접근만을 활용하여 목표 모델(Target Model)과 기능적으로 동일한(Functionally Equivalent) 모델을 재구성하는 고도화된 모델 탈취 공격 기법이다. 단순 성능 근사가 아닌, 입력 공간 전반에 걸쳐 동일하거나 매우 유사한 의사결정 경계를 복원하는 것을 목표로 한다.특히 MLaaS 및 LLM API 환경에서 내부 파라미터를 직접 획득하지 않더라도 모델의 기능적 동등성을 확보할 수 있다는 점에서 지적 재산(IP) 및 상업적 가치에 심각한 위협이 된다.1. 개념 및 정의Functionally Equivalent Extraction은 입력–출력 쌍을 반복적으로 수집하고, 의사결정 경계를 체계적으로..

Topic 2026.03.09

Knockoff Nets(모델 모방 공격 기법)

개요Knockoff Nets는 공개된 머신러닝 모델 또는 API에 블랙박스 방식으로 질의(Query)를 수행하여 출력 데이터를 수집한 뒤, 이를 기반으로 유사한 대체 모델(Surrogate Model)을 학습시키는 모델 모방(Model Imitation) 공격 기법이다. 2019년 Orekondy et al.의 논문 *"Knockoff Nets: Stealing Functionality of Black-Box Models"*에서 체계적으로 제안되었으며, 제한된 정보만으로도 고성능 모델을 근사할 수 있음을 실험적으로 입증하였다.특히 MLaaS(Machine Learning as a Service) 및 LLM API 환경에서 모델의 지적 재산(IP)과 상업적 가치를 침해할 수 있는 현실적인 위협으로 평가된다..

Topic 2026.03.09

Model Stealing Attack(모델 탈취 공격)

개요Model Stealing Attack은 공격자가 공개된 머신러닝 또는 LLM API에 반복적으로 질의를 수행하여 출력 결과를 수집하고, 이를 기반으로 유사한 모델(Surrogate Model)을 학습시켜 원본 모델의 기능을 복제하는 공격 기법이다. 이는 Model Extraction Attack(MEA)과 유사한 개념으로 사용되며, 특히 MLaaS(Machine Learning as a Service) 환경에서 주요 보안 위협으로 간주된다.클라우드 기반 AI 서비스가 확산됨에 따라 모델 자체가 핵심 자산이 되었으며, 모델 탈취는 기업의 지적 재산(IP), 경쟁 우위, API 수익 구조를 직접적으로 침해할 수 있다.1. 개념 및 정의Model Stealing Attack은 블랙박스 접근 환경에서 입력..

Topic 2026.03.08

Model Extraction Attack (MEA)

개요Model Extraction Attack(MEA)는 공격자가 공개된 머신러닝 또는 대규모 언어 모델(LLM) API에 반복적으로 질의(Query)를 보내 모델의 동작을 학습한 후, 이를 기반으로 유사한 대체 모델(Surrogate Model)을 복제하는 공격 기법이다. 이는 모델 파라미터 자체를 직접 탈취하지 않더라도, 출력 응답 패턴을 분석하여 모델의 의사결정 경계를 재구성하는 방식으로 이루어진다.클라우드 기반 AI 서비스가 확산되면서, API 형태로 제공되는 모델의 지적 재산(IP) 보호와 비용 보호 관점에서 MEA는 주요 보안 위협으로 부상하고 있다.1. 개념 및 정의Model Extraction Attack은 블랙박스 접근 환경에서 입력과 출력만을 활용하여 목표 모델의 기능을 근사하는 모델을..

Topic 2026.03.08
728x90
반응형