Topic

Distillation Attack(Model Distillation-based Model Extraction)

JackerLab 2026. 3. 17. 17:08
728x90
반응형

개요

Distillation Attack은 원래 모델 경량화 및 성능 향상을 위해 사용되는 지식 증류(Knowledge Distillation) 기법을 악용하여, 대상 모델(Teacher)의 출력 정보를 기반으로 대체 모델(Student)을 학습시키는 모델 추출(Model Extraction) 공격 방식이다. 공격자는 API를 통해 수집한 Soft-label(확률 분포 또는 로짓)을 활용하여 원본 모델과 유사한 성능을 갖는 복제 모델을 구축할 수 있다. 최근 상용 AI API 확산과 함께 지적재산권 침해 및 모델 자산 탈취 리스크가 주요 보안 이슈로 부상하고 있다.


1. 개념 및 정의

Distillation Attack은 공격자가 대상 모델 f_T(x)의 출력 확률 분포 P_T(y|x)를 수집한 후, 이를 Soft Target으로 활용하여 Student 모델 f_S(x)를 학습하는 방식이다.

일반적인 학습 구조는 다음과 같다.

L = KL(P_T(y|x, T) || P_S(y|x, T))

여기서 T는 Temperature 파라미터로, Soft-label의 정보량을 조절하는 역할을 한다.

합법적 Knowledge Distillation과 달리, Distillation Attack은 무단 모델 복제를 목적으로 수행된다는 점이 핵심 차이이다.


2. 특징

구분 설명 보안적 의미
Soft-label 활용 확률 분포 기반 학습 정보 노출 위험
고정밀 복제 Teacher 근사 성능 확보 IP 침해 가능성
데이터 효율성 적은 샘플로 학습 가능 쿼리 비용 절감

Soft-label은 단순 Hard-label보다 훨씬 풍부한 의사결정 정보를 제공한다.


3. 구성 요소

구성 요소 설명 적용 기술
Query Generator 입력 데이터 생성 Random/Adaptive Sampling
Soft-label Collector 확률/로짓 수집 API Query
Student Model Trainer 대체 모델 학습 KL Divergence

대표 연구(Tramèr et al., 2016; Papernot et al., 2017)는 Soft-label 기반 모델 추출이 높은 재현율을 보인다고 보고하였다.


4. 기술 요소

기술 영역 적용 기법 세부 설명
Knowledge Distillation Temperature Scaling Soft Target 강화
Model Stealing Substitute Model Training 출력 기반 복제
방어 전략 Output Truncation 확률 제한

최근 클라우드 AI 서비스에서는 Top-k 확률 반환, 확률 정밀도 축소, Differential Privacy 적용 등을 통해 Distillation Attack을 완화하고 있다.


5. 장점 및 한계 (공격 관점)

구분 장점 한계
Distillation 기반 높은 정확도 복제 확률 비공개 시 어려움
Label 기반 단순 접근 정밀도 낮음

Soft-label 기반 증류는 모델 구조를 간접적으로 재현하는 강력한 공격 전략이다.


6. 주요 활용 사례 및 고려사항

적용 환경 사례 대응 전략
Vision API 이미지 분류 모델 탈취 확률 제한
NLP API 감정/요약 모델 복제 Logit Masking
SaaS AI 추천 시스템 모사 Query 모니터링

NIST AI RMF 및 ENISA AI Threat Landscape에서는 모델 자산 보호를 위한 출력 최소화 정책과 API 이상 탐지를 권고한다.

한 줄 첨언: Soft-label은 모델의 의사결정 논리를 거의 그대로 전달한다.


7. 결론

Distillation Attack은 지식 증류 기법을 악용하여 고정밀 모델 복제를 수행하는 대표적 모델 추출 공격이다. 확률 출력 정보는 단순 라벨보다 훨씬 많은 신호를 제공하므로, 상용 AI API 환경에서는 출력 최소화, 정밀도 축소, 쿼리 제한, 이상 탐지 체계가 필수적이다. 향후 AI 보안 설계는 모델 성능과 자산 보호 간 균형을 핵심 과제로 다루게 될 것이다.

728x90
반응형