Topic

Prediction Poisoning / Output Perturbation(예측 오염 및 출력 교란)

JackerLab 2026. 3. 19. 09:11
728x90
반응형

개요

Prediction Poisoning 또는 Output Perturbation은 AI 모델의 학습 데이터가 아닌 ‘출력 단계’를 직접 조작하거나 왜곡하여 사용자에게 전달되는 예측 결과의 신뢰성을 저해하는 공격 기법이다. 이는 모델 내부를 변조하지 않더라도 API 응답, 확률값, 순위 결과 등을 교란함으로써 모델 성능을 오판하게 만들거나 의사결정을 왜곡할 수 있다. 특히 SaaS AI, 추천 시스템, 금융 예측 API 환경에서 중요한 보안 위협으로 분류된다.


1. 개념 및 정의

Prediction Poisoning은 모델이 생성한 예측값에 악의적 노이즈를 주입하거나 특정 클래스의 확률을 인위적으로 증폭·감소시키는 방식으로 결과를 왜곡하는 공격이다.

Output Perturbation은 출력 확률 벡터, 순위 점수, 로짓 값 등에 의도적 교란을 가해 사용자에게 전달되는 정보를 변형하는 기술이다.

이는 데이터 중독(Data Poisoning)과 달리 학습 단계가 아닌 추론(Inference) 단계에서 발생한다는 점이 핵심 차이이다.


2. 특징

구분 설명 보안적 의미
추론 단계 공격 학습 데이터 불필요 실시간 위협
확률 교란 Confidence 왜곡 의사결정 오류 유발
외부 조작 가능성 API 응답 변조 무결성 문제

출력 단계는 사용자 신뢰와 직접 연결되는 영역이다.


3. 구성 요소

구성 요소 설명 적용 기술
Noise Injector 출력 노이즈 주입 Gaussian Noise
Probability Shifter 특정 클래스 확률 조정 Scaling
Response Manipulator API 응답 변형 Proxy Interception

공격자는 출력 후처리(Post-processing) 계층을 목표로 삼는다.


4. 기술 요소

기술 영역 적용 기법 세부 설명
확률 교란 Logit Perturbation Softmax 이전 조작
순위 왜곡 Ranking Manipulation 추천 시스템 교란
방어 기술 Output Integrity Check 해시 검증

최근 연구에서는 Secure Inference Pipeline 설계를 통해 출력 무결성을 강화하는 방안이 제안되고 있다.


5. 장점 및 한계 (공격 관점)

구분 장점 한계
Prediction Poisoning 즉각적 효과 탐지 가능성
Output Perturbation 모델 비의존 암호화 시 어려움

출력 단계는 비교적 방어가 가능하지만, 관리 소홀 시 큰 피해를 초래한다.


6. 주요 활용 사례 및 고려사항

적용 환경 사례 대응 전략
추천 시스템 특정 상품 노출 증폭 결과 무결성 검증
금융 예측 API 신용 점수 왜곡 응답 암호화
LLM 서비스 확률 왜곡 응답 로그 비교 분석

NIST 및 ISO 27001 보안 지침에서는 데이터 및 응답 무결성 보장을 핵심 통제 항목으로 정의하고 있다.

한 줄 첨언: 출력의 무결성이 곧 AI 신뢰성이다.


7. 결론

Prediction Poisoning 및 Output Perturbation은 모델 내부가 아닌 출력 계층을 목표로 하는 추론 단계 공격이다. 이는 사용자 신뢰, 서비스 신뢰도, 비즈니스 의사결정에 직접적인 영향을 미친다. 향후 AI 보안 설계는 출력 무결성 검증, 암호화 통신, 응답 이상 탐지 체계를 포함하는 통합 보안 구조로 발전해야 한다.

728x90
반응형