PRADA (Protecting Against DNN Model Stealing Attacks)

Topic

PRADA (Protecting Against DNN Model Stealing Attacks)

JackerLab 2026. 3. 19. 18:13

728x90

개요

PRADA는 Deep Neural Network(DNN) 모델 탈취(Model Stealing) 공격을 탐지하기 위해 제안된 질의(Query) 분포 기반 방어 기법이다. 2019년 USENIX Security Symposium에서 Juuti et al.이 발표한 연구로, 모델 추출 공격자가 생성하는 질의 패턴이 정상 사용자 질의 분포와 통계적으로 다르다는 점에 착안하였다. PRADA는 입력 간 거리 분포(distance distribution)를 분석하여 모델 복제 시도를 효과적으로 탐지하는 최초의 체계적 접근 중 하나로 평가된다.

1. 개념 및 정의

PRADA는 모델 API에 전달되는 입력 샘플 간의 거리 분포를 지속적으로 모니터링하고, 해당 분포가 정규 분포에서 벗어나는지를 통계적으로 검정하여 모델 탈취 공격을 탐지하는 방법이다.

핵심 아이디어는 다음과 같다.

정상 사용자 질의는 자연 데이터 분포를 따른다.
모델 추출 공격자는 경계 탐색을 위해 인위적으로 생성된 입력을 반복 제출한다.
이로 인해 입력 간 거리 분포가 비정상적 형태를 보인다.

PRADA는 Kolmogorov–Smirnov(K-S) Test를 활용하여 분포 차이를 감지한다.

2. 특징

구분	설명	보안적 의미
분포 기반 탐지	입력 거리 통계 분석	블랙박스 환경 적합
모델 비의존	내부 파라미터 불필요	API 적용 용이
실시간 모니터링	지속적 분포 추적	조기 탐지 가능

PRADA는 모델 구조를 수정하지 않고 외부에서 적용 가능하다.

3. 구성 요소

구성 요소	설명	적용 기술
Distance Calculator	입력 간 거리 계산	L2 Norm
Distribution Monitor	거리 분포 추적	Histogram
Statistical Tester	이상 여부 판단	K-S Test

질의가 누적될수록 분포 왜곡은 더욱 뚜렷해진다.

4. 기술 요소

기술 영역	적용 기법	세부 설명
통계 검정	Kolmogorov–Smirnov Test	분포 차이 검정
이상 탐지	Distribution Drift Analysis	거리 변화 추적
방어 통합	Query Rate Limiting	차단 정책 연계

연구 결과에 따르면 PRADA는 다양한 모델 추출 공격(Tramèr Attack, Papernot Attack 등)에 대해 높은 탐지율을 보였다.

5. 장점 및 한계

구분	장점	한계
PRADA	비침투적 적용	적응형 공격 가능
정적 정책	구현 용이	통계 민감도 조정 필요

공격자가 질의 분포를 모방하는 경우 탐지가 어려워질 수 있다.

6. 주요 활용 사례 및 고려사항

적용 환경	사례	대응 전략
Vision API	모델 복제 시도 탐지	분포 기반 차단
SaaS AI	상업 모델 보호	로그 분석 통합
LLM API	자동화 질의 탐지	Query Sequence 분석

NIST AI RMF는 모델 자산 보호를 위해 로그 기반 모니터링 체계 구축을 권고하고 있다.

한 줄 첨언: PRADA는 질의 패턴을 통해 공격자의 의도를 통계적으로 드러낸다.

7. 결론

PRADA는 DNN 모델 탈취 공격을 탐지하기 위한 대표적인 질의 분포 기반 방어 기법이다. 입력 간 거리 분포 분석과 통계 검정을 통해 블랙박스 환경에서도 효과적인 탐지가 가능하다. 향후 AI 보안 체계는 PRADA와 같은 분포 기반 탐지 기법을 이상 탐지 시스템 및 적응형 차단 정책과 통합하여 고도화될 것이다.

728x90