
개요
Substitute Model(대체 모델)은 공격자가 블랙박스 접근만 가능한 목표 모델(Target Model)을 직접 분석할 수 없을 때, 입력–출력 쌍을 기반으로 근사 모델을 학습하여 원본 모델의 의사결정 경계를 추정하는 전략이다. 이는 특히 Adversarial Attack(적대적 공격) 및 Model Extraction 공격에서 핵심적으로 활용된다.
Goodfellow 등 연구 이후, 블랙박스 환경에서도 공격이 가능하다는 사실이 입증되었으며, Substitute Model은 Gradient 기반 공격을 우회적으로 수행하기 위한 핵심 메커니즘으로 자리잡았다.
1. 개념 및 정의
Substitute Model은 목표 모델의 예측 결과를 학습 데이터로 활용하여 기능적으로 유사한 모델을 구축하는 방식이다. 이를 통해 직접적인 내부 기울기(Gradient) 접근 없이도 적대적 예제를 생성하거나 모델 취약점을 분석할 수 있다.
Papernot et al.(2017)은 Substitute Model을 활용해 블랙박스 환경에서 성공적인 Adversarial Example 전이를 실험적으로 입증하였다.
2. 특징
| 구분 | 설명 | 보안적 의미 |
| 블랙박스 우회 | 내부 구조 불필요 | 공격 확장성 증가 |
| Gradient 근사 | 대체 모델 기울기 활용 | Adversarial 공격 가능 |
| Transferability | 적대적 예제 전이 가능 | 방어 복잡성 증가 |
첨언: 모델 간 전이성(Transferability)이 공격 성공의 핵심 요소이다.
3. 구성 요소
| 구성 요소 | 역할 | 관련 기술 |
| Target Model | 공격 대상 API | MLaaS, LLM Endpoint |
| Query Sampler | 입력 생성 및 라벨 수집 | Adaptive Sampling |
| Substitute Model | 근사 모델 학습 | CNN, Transformer |
첨언: 입력 다양성이 모델 근사 정확도를 좌우한다.
4. 기술 요소
| 기술 영역 | 세부 기술 | 설명 |
| Jacobian-based Augmentation | 데이터 증강 | 경계 탐색 |
| Gradient-based Attack | FGSM, PGD | 적대적 예제 생성 |
| Knowledge Distillation | Soft Label 학습 | 기능 근사 |
첨언: Jacobian 기반 데이터 증강은 Substitute Model 학습 효율을 높인다.
5. 활용 사례
| 활용 분야 | 적용 사례 | 목적 |
| Adversarial Attack | 블랙박스 모델 공격 | 취약점 분석 |
| Model Extraction | 기능 복제 | IP 침해 |
| Explainability | 단순 모델 근사 | 해석 가능성 확보 |
첨언: 공격과 분석 목적 모두에 활용될 수 있다.
6. 대응 전략 및 고려사항
| 대응 방안 | 설명 | 적용 기술 |
| Query 제한 | 반복 질의 탐지 | Rate Limiting |
| Output 최소화 | 확률·로짓 비공개 | 정보 노출 차단 |
| Adversarial Training | 적대적 예제 학습 | Robustness 강화 |
첨언: Transferability 감소가 방어 전략의 핵심이다.
7. 결론
Substitute Model은 블랙박스 환경에서 모델 취약점을 분석하거나 공격을 수행하기 위한 핵심 전략이다. 특히 적대적 예제 생성 및 모델 탈취 공격에서 중요한 역할을 하며, AI 서비스 환경에서는 출력 최소화, 이상 탐지, 적대적 학습을 결합한 다계층 방어 전략이 요구된다. AI 보안 연구 및 모델 거버넌스 영역에서 지속적으로 다뤄질 핵심 개념이다.
'Topic' 카테고리의 다른 글
| Clone Model(모델 복제) (0) | 2026.03.13 |
|---|---|
| Surrogate Model(대체 모델) (0) | 2026.03.11 |
| Query-based Attack(질의 기반 공격) (0) | 2026.03.10 |
| Functionally Equivalent Extraction(FEE) (0) | 2026.03.09 |
| Knockoff Nets(모델 모방 공격 기법) (0) | 2026.03.09 |