
개요
Prediction Poisoning 또는 Output Perturbation은 AI 모델의 학습 데이터가 아닌 ‘출력 단계’를 직접 조작하거나 왜곡하여 사용자에게 전달되는 예측 결과의 신뢰성을 저해하는 공격 기법이다. 이는 모델 내부를 변조하지 않더라도 API 응답, 확률값, 순위 결과 등을 교란함으로써 모델 성능을 오판하게 만들거나 의사결정을 왜곡할 수 있다. 특히 SaaS AI, 추천 시스템, 금융 예측 API 환경에서 중요한 보안 위협으로 분류된다.
1. 개념 및 정의
Prediction Poisoning은 모델이 생성한 예측값에 악의적 노이즈를 주입하거나 특정 클래스의 확률을 인위적으로 증폭·감소시키는 방식으로 결과를 왜곡하는 공격이다.
Output Perturbation은 출력 확률 벡터, 순위 점수, 로짓 값 등에 의도적 교란을 가해 사용자에게 전달되는 정보를 변형하는 기술이다.
이는 데이터 중독(Data Poisoning)과 달리 학습 단계가 아닌 추론(Inference) 단계에서 발생한다는 점이 핵심 차이이다.
2. 특징
| 구분 | 설명 | 보안적 의미 |
| 추론 단계 공격 | 학습 데이터 불필요 | 실시간 위협 |
| 확률 교란 | Confidence 왜곡 | 의사결정 오류 유발 |
| 외부 조작 가능성 | API 응답 변조 | 무결성 문제 |
출력 단계는 사용자 신뢰와 직접 연결되는 영역이다.
3. 구성 요소
| 구성 요소 | 설명 | 적용 기술 |
| Noise Injector | 출력 노이즈 주입 | Gaussian Noise |
| Probability Shifter | 특정 클래스 확률 조정 | Scaling |
| Response Manipulator | API 응답 변형 | Proxy Interception |
공격자는 출력 후처리(Post-processing) 계층을 목표로 삼는다.
4. 기술 요소
| 기술 영역 | 적용 기법 | 세부 설명 |
| 확률 교란 | Logit Perturbation | Softmax 이전 조작 |
| 순위 왜곡 | Ranking Manipulation | 추천 시스템 교란 |
| 방어 기술 | Output Integrity Check | 해시 검증 |
최근 연구에서는 Secure Inference Pipeline 설계를 통해 출력 무결성을 강화하는 방안이 제안되고 있다.
5. 장점 및 한계 (공격 관점)
| 구분 | 장점 | 한계 |
| Prediction Poisoning | 즉각적 효과 | 탐지 가능성 |
| Output Perturbation | 모델 비의존 | 암호화 시 어려움 |
출력 단계는 비교적 방어가 가능하지만, 관리 소홀 시 큰 피해를 초래한다.
6. 주요 활용 사례 및 고려사항
| 적용 환경 | 사례 | 대응 전략 |
| 추천 시스템 | 특정 상품 노출 증폭 | 결과 무결성 검증 |
| 금융 예측 API | 신용 점수 왜곡 | 응답 암호화 |
| LLM 서비스 | 확률 왜곡 응답 | 로그 비교 분석 |
NIST 및 ISO 27001 보안 지침에서는 데이터 및 응답 무결성 보장을 핵심 통제 항목으로 정의하고 있다.
한 줄 첨언: 출력의 무결성이 곧 AI 신뢰성이다.
7. 결론
Prediction Poisoning 및 Output Perturbation은 모델 내부가 아닌 출력 계층을 목표로 하는 추론 단계 공격이다. 이는 사용자 신뢰, 서비스 신뢰도, 비즈니스 의사결정에 직접적인 영향을 미친다. 향후 AI 보안 설계는 출력 무결성 검증, 암호화 통신, 응답 이상 탐지 체계를 포함하는 통합 보안 구조로 발전해야 한다.
'Topic' 카테고리의 다른 글
| Query Auditing / Detection(질의 감사 및 탐지 기술) (0) | 2026.03.18 |
|---|---|
| Model Fingerprinting(모델 지문 식별 기술) (0) | 2026.03.18 |
| Distillation Attack(Model Distillation-based Model Extraction) (0) | 2026.03.17 |
| Logit-based Extraction(Logit Leakage Attack) (0) | 2026.03.17 |
| Soft-label vs. Hard-label Attack(확률 기반 vs. 라벨 기반 적대적 공격) (0) | 2026.03.16 |