
개요
Distillation Attack은 원래 모델 경량화 및 성능 향상을 위해 사용되는 지식 증류(Knowledge Distillation) 기법을 악용하여, 대상 모델(Teacher)의 출력 정보를 기반으로 대체 모델(Student)을 학습시키는 모델 추출(Model Extraction) 공격 방식이다. 공격자는 API를 통해 수집한 Soft-label(확률 분포 또는 로짓)을 활용하여 원본 모델과 유사한 성능을 갖는 복제 모델을 구축할 수 있다. 최근 상용 AI API 확산과 함께 지적재산권 침해 및 모델 자산 탈취 리스크가 주요 보안 이슈로 부상하고 있다.
1. 개념 및 정의
Distillation Attack은 공격자가 대상 모델 f_T(x)의 출력 확률 분포 P_T(y|x)를 수집한 후, 이를 Soft Target으로 활용하여 Student 모델 f_S(x)를 학습하는 방식이다.
일반적인 학습 구조는 다음과 같다.
L = KL(P_T(y|x, T) || P_S(y|x, T))
여기서 T는 Temperature 파라미터로, Soft-label의 정보량을 조절하는 역할을 한다.
합법적 Knowledge Distillation과 달리, Distillation Attack은 무단 모델 복제를 목적으로 수행된다는 점이 핵심 차이이다.
2. 특징
| 구분 | 설명 | 보안적 의미 |
| Soft-label 활용 | 확률 분포 기반 학습 | 정보 노출 위험 |
| 고정밀 복제 | Teacher 근사 성능 확보 | IP 침해 가능성 |
| 데이터 효율성 | 적은 샘플로 학습 가능 | 쿼리 비용 절감 |
Soft-label은 단순 Hard-label보다 훨씬 풍부한 의사결정 정보를 제공한다.
3. 구성 요소
| 구성 요소 | 설명 | 적용 기술 |
| Query Generator | 입력 데이터 생성 | Random/Adaptive Sampling |
| Soft-label Collector | 확률/로짓 수집 | API Query |
| Student Model Trainer | 대체 모델 학습 | KL Divergence |
대표 연구(Tramèr et al., 2016; Papernot et al., 2017)는 Soft-label 기반 모델 추출이 높은 재현율을 보인다고 보고하였다.
4. 기술 요소
| 기술 영역 | 적용 기법 | 세부 설명 |
| Knowledge Distillation | Temperature Scaling | Soft Target 강화 |
| Model Stealing | Substitute Model Training | 출력 기반 복제 |
| 방어 전략 | Output Truncation | 확률 제한 |
최근 클라우드 AI 서비스에서는 Top-k 확률 반환, 확률 정밀도 축소, Differential Privacy 적용 등을 통해 Distillation Attack을 완화하고 있다.
5. 장점 및 한계 (공격 관점)
| 구분 | 장점 | 한계 |
| Distillation 기반 | 높은 정확도 복제 | 확률 비공개 시 어려움 |
| Label 기반 | 단순 접근 | 정밀도 낮음 |
Soft-label 기반 증류는 모델 구조를 간접적으로 재현하는 강력한 공격 전략이다.
6. 주요 활용 사례 및 고려사항
| 적용 환경 | 사례 | 대응 전략 |
| Vision API | 이미지 분류 모델 탈취 | 확률 제한 |
| NLP API | 감정/요약 모델 복제 | Logit Masking |
| SaaS AI | 추천 시스템 모사 | Query 모니터링 |
NIST AI RMF 및 ENISA AI Threat Landscape에서는 모델 자산 보호를 위한 출력 최소화 정책과 API 이상 탐지를 권고한다.
한 줄 첨언: Soft-label은 모델의 의사결정 논리를 거의 그대로 전달한다.
7. 결론
Distillation Attack은 지식 증류 기법을 악용하여 고정밀 모델 복제를 수행하는 대표적 모델 추출 공격이다. 확률 출력 정보는 단순 라벨보다 훨씬 많은 신호를 제공하므로, 상용 AI API 환경에서는 출력 최소화, 정밀도 축소, 쿼리 제한, 이상 탐지 체계가 필수적이다. 향후 AI 보안 설계는 모델 성능과 자산 보호 간 균형을 핵심 과제로 다루게 될 것이다.
'Topic' 카테고리의 다른 글
| Logit-based Extraction(Logit Leakage Attack) (0) | 2026.03.17 |
|---|---|
| Soft-label vs. Hard-label Attack(확률 기반 vs. 라벨 기반 적대적 공격) (0) | 2026.03.16 |
| Label-only Attack(Label-Only Adversarial Attack) (0) | 2026.03.16 |
| Task Accuracy(Task Performance Accuracy) (0) | 2026.03.15 |
| Fidelity(모델 충실도) (0) | 2026.03.15 |