PRADA (Protecting Against DNN Model Stealing Attacks)

개요
PRADA는 Deep Neural Network(DNN) 모델 탈취(Model Stealing) 공격을 탐지하기 위해 제안된 질의(Query) 분포 기반 방어 기법이다. 2019년 USENIX Security Symposium에서 Juuti et al.이 발표한 연구로, 모델 추출 공격자가 생성하는 질의 패턴이 정상 사용자 질의 분포와 통계적으로 다르다는 점에 착안하였다. PRADA는 입력 간 거리 분포(distance distribution)를 분석하여 모델 복제 시도를 효과적으로 탐지하는 최초의 체계적 접근 중 하나로 평가된다.
1. 개념 및 정의
PRADA는 모델 API에 전달되는 입력 샘플 간의 거리 분포를 지속적으로 모니터링하고, 해당 분포가 정규 분포에서 벗어나는지를 통계적으로 검정하여 모델 탈취 공격을 탐지하는 방법이다.
핵심 아이디어는 다음과 같다.
- 정상 사용자 질의는 자연 데이터 분포를 따른다.
- 모델 추출 공격자는 경계 탐색을 위해 인위적으로 생성된 입력을 반복 제출한다.
- 이로 인해 입력 간 거리 분포가 비정상적 형태를 보인다.
PRADA는 Kolmogorov–Smirnov(K-S) Test를 활용하여 분포 차이를 감지한다.
2. 특징
| 구분 | 설명 | 보안적 의미 |
| 분포 기반 탐지 | 입력 거리 통계 분석 | 블랙박스 환경 적합 |
| 모델 비의존 | 내부 파라미터 불필요 | API 적용 용이 |
| 실시간 모니터링 | 지속적 분포 추적 | 조기 탐지 가능 |
PRADA는 모델 구조를 수정하지 않고 외부에서 적용 가능하다.
3. 구성 요소
| 구성 요소 | 설명 | 적용 기술 |
| Distance Calculator | 입력 간 거리 계산 | L2 Norm |
| Distribution Monitor | 거리 분포 추적 | Histogram |
| Statistical Tester | 이상 여부 판단 | K-S Test |
질의가 누적될수록 분포 왜곡은 더욱 뚜렷해진다.
4. 기술 요소
| 기술 영역 | 적용 기법 | 세부 설명 |
| 통계 검정 | Kolmogorov–Smirnov Test | 분포 차이 검정 |
| 이상 탐지 | Distribution Drift Analysis | 거리 변화 추적 |
| 방어 통합 | Query Rate Limiting | 차단 정책 연계 |
연구 결과에 따르면 PRADA는 다양한 모델 추출 공격(Tramèr Attack, Papernot Attack 등)에 대해 높은 탐지율을 보였다.
5. 장점 및 한계
| 구분 | 장점 | 한계 |
| PRADA | 비침투적 적용 | 적응형 공격 가능 |
| 정적 정책 | 구현 용이 | 통계 민감도 조정 필요 |
공격자가 질의 분포를 모방하는 경우 탐지가 어려워질 수 있다.
6. 주요 활용 사례 및 고려사항
| 적용 환경 | 사례 | 대응 전략 |
| Vision API | 모델 복제 시도 탐지 | 분포 기반 차단 |
| SaaS AI | 상업 모델 보호 | 로그 분석 통합 |
| LLM API | 자동화 질의 탐지 | Query Sequence 분석 |
NIST AI RMF는 모델 자산 보호를 위해 로그 기반 모니터링 체계 구축을 권고하고 있다.
한 줄 첨언: PRADA는 질의 패턴을 통해 공격자의 의도를 통계적으로 드러낸다.
7. 결론
PRADA는 DNN 모델 탈취 공격을 탐지하기 위한 대표적인 질의 분포 기반 방어 기법이다. 입력 간 거리 분포 분석과 통계 검정을 통해 블랙박스 환경에서도 효과적인 탐지가 가능하다. 향후 AI 보안 체계는 PRADA와 같은 분포 기반 탐지 기법을 이상 탐지 시스템 및 적응형 차단 정책과 통합하여 고도화될 것이다.