728x90
반응형

2026/03/19 2

PRADA (Protecting Against DNN Model Stealing Attacks)

개요PRADA는 Deep Neural Network(DNN) 모델 탈취(Model Stealing) 공격을 탐지하기 위해 제안된 질의(Query) 분포 기반 방어 기법이다. 2019년 USENIX Security Symposium에서 Juuti et al.이 발표한 연구로, 모델 추출 공격자가 생성하는 질의 패턴이 정상 사용자 질의 분포와 통계적으로 다르다는 점에 착안하였다. PRADA는 입력 간 거리 분포(distance distribution)를 분석하여 모델 복제 시도를 효과적으로 탐지하는 최초의 체계적 접근 중 하나로 평가된다.1. 개념 및 정의PRADA는 모델 API에 전달되는 입력 샘플 간의 거리 분포를 지속적으로 모니터링하고, 해당 분포가 정규 분포에서 벗어나는지를 통계적으로 검정하여 모델 ..

Topic 2026.03.19

Prediction Poisoning / Output Perturbation(예측 오염 및 출력 교란)

개요Prediction Poisoning 또는 Output Perturbation은 AI 모델의 학습 데이터가 아닌 ‘출력 단계’를 직접 조작하거나 왜곡하여 사용자에게 전달되는 예측 결과의 신뢰성을 저해하는 공격 기법이다. 이는 모델 내부를 변조하지 않더라도 API 응답, 확률값, 순위 결과 등을 교란함으로써 모델 성능을 오판하게 만들거나 의사결정을 왜곡할 수 있다. 특히 SaaS AI, 추천 시스템, 금융 예측 API 환경에서 중요한 보안 위협으로 분류된다.1. 개념 및 정의Prediction Poisoning은 모델이 생성한 예측값에 악의적 노이즈를 주입하거나 특정 클래스의 확률을 인위적으로 증폭·감소시키는 방식으로 결과를 왜곡하는 공격이다.Output Perturbation은 출력 확률 벡터, 순위..

Topic 2026.03.19
728x90
반응형