
개요
Model Stealing Attack은 공격자가 공개된 머신러닝 또는 LLM API에 반복적으로 질의를 수행하여 출력 결과를 수집하고, 이를 기반으로 유사한 모델(Surrogate Model)을 학습시켜 원본 모델의 기능을 복제하는 공격 기법이다. 이는 Model Extraction Attack(MEA)과 유사한 개념으로 사용되며, 특히 MLaaS(Machine Learning as a Service) 환경에서 주요 보안 위협으로 간주된다.
클라우드 기반 AI 서비스가 확산됨에 따라 모델 자체가 핵심 자산이 되었으며, 모델 탈취는 기업의 지적 재산(IP), 경쟁 우위, API 수익 구조를 직접적으로 침해할 수 있다.
1. 개념 및 정의
Model Stealing Attack은 블랙박스 접근 환경에서 입력–출력 쌍(Input–Output Pair)을 대량으로 수집하여 목표 모델의 의사결정 경계를 근사하는 대체 모델을 학습하는 공격 방식이다. 내부 파라미터 접근 없이도 기능적 복제가 가능하다는 점에서 탐지가 어렵다.
Tramèr et al.(2016)은 MLaaS 환경에서의 모델 추출 가능성을 실험적으로 입증하였으며, 이후 딥러닝 및 LLM 기반 API 환경에서도 유사 위협이 보고되고 있다.
2. 특징
| 구분 | 설명 | 보안적 의미 |
| 블랙박스 기반 | 내부 구조 접근 불필요 | 탐지 난이도 높음 |
| 대량 질의 수집 | 자동화된 Query 스크립트 | 비용 및 트래픽 이상 |
| Surrogate 모델 학습 | Distillation 활용 | 기능적 복제 |
첨언: 출력 확률값(Logits) 공개 시 공격 효율이 증가한다.
3. 구성 요소
| 구성 요소 | 역할 | 관련 기술 |
| Target Model | 공격 대상 API | MLaaS, LLM API |
| Query Engine | 자동 질의 생성 | Active Learning |
| Surrogate Model | 복제 모델 | Knowledge Distillation |
첨언: 정보량 높은 질의 선택 전략이 핵심이다.
4. 기술 요소
| 기술 영역 | 세부 기술 | 설명 |
| Active Learning | 효율적 샘플 선택 | 질의 최적화 |
| Knowledge Distillation | 출력 기반 학습 | 근사 모델 생성 |
| Rate Limit 우회 | 분산 트래픽 활용 | 탐지 회피 |
첨언: Temperature 및 Top-k 설정이 복제 정확도에 영향.
5. 공격 영향
| 영향 영역 | 설명 | 조직 리스크 |
| 지적 재산 침해 | 모델 알고리즘 복제 | 경쟁력 약화 |
| 수익 손실 | API 사용 감소 | 재무 손실 |
| 보안 위험 | 추가 공격 기반 확보 | 2차 피해 가능 |
첨언: SaaS AI 기업에게 경제적 피해가 크다.
6. 대응 전략 및 고려사항
| 대응 방안 | 설명 | 적용 기술 |
| Query 제한 | 요청 횟수 및 패턴 분석 | Rate Limiting |
| 출력 최소화 | 확률값 비공개 | Output Hardening |
| 워터마킹 | 모델 고유 신호 삽입 | Model Watermarking |
첨언: 이상 탐지 기반 API 모니터링이 필수적이다.
7. 결론
Model Stealing Attack은 AI 모델을 핵심 자산으로 보유한 조직에게 심각한 위협이다. 단순 접근 제어를 넘어 출력 제한, API 모니터링, 워터마킹, 이상 탐지 등 다계층 방어 전략이 요구된다. LLM 서비스 확산과 함께 AI 보안 및 모델 거버넌스 영역에서 핵심적으로 다뤄질 공격 유형이다.
'Topic' 카테고리의 다른 글
| Functionally Equivalent Extraction(FEE) (0) | 2026.03.09 |
|---|---|
| Knockoff Nets(모델 모방 공격 기법) (0) | 2026.03.09 |
| Model Extraction Attack (MEA) (0) | 2026.03.08 |
| VDRP(Vulnerability Disclosure & Remediation Policy) (0) | 2026.03.07 |
| Donut(Document Understanding Transformer) (0) | 2026.03.07 |