Topic

데이터 오염 공격(Data Poisoning Attacks)

JackerLab 2025. 3. 27. 17:12
728x90
반응형

개요

데이터 오염 공격(Data Poisoning Attack)은 인공지능 모델의 학습 단계에서 고의적으로 왜곡된 데이터를 주입해 모델의 예측 정확도나 의사결정을 교란시키는 공격 기법입니다. 이는 AI의 '학습 기반 의존성'을 악용한 전략으로, 보안·금융·의료 등 고신뢰 AI가 요구되는 분야에서 AI 시스템의 무결성과 안전성을 위협하는 치명적 위협으로 떠오르고 있습니다. 본 글에서는 데이터 오염 공격의 개념, 유형, 실제 사례, 탐지 및 대응 전략을 정리합니다.


1. 개념 및 정의

구분 설명
데이터 오염 공격 학습 데이터에 악의적 샘플을 삽입해 AI 모델의 학습 결과에 악영향을 주는 공격
공격 대상 지도 학습(Classification), 비지도 학습(Clustering), 강화학습 등
공격 목적 예측 정확도 저하, 특정 클래스 유도, 모델 백도어 삽입 등

2. 주요 공격 유형

공격 유형 설명 위협 효과
Label Flipping 일부 정상 샘플의 레이블을 고의로 반대로 설정 모델의 클래스 구분 정확도 저하
Backdoor Injection 특정 트리거(패턴, 픽셀 등)가 있을 때만 특정 클래스로 분류되도록 학습 정상 작동 중에도 공격자가 조건 제어 가능
Clean-label Poisoning 레이블은 정상처럼 보이지만, 입력은 조작된 데이터를 삽입 인간 눈에 구분 불가, 탐지 어려움
Feature Collision 공격 샘플이 다른 클래스의 특성과 유사하게 설계됨 분류 경계를 왜곡, 모델 혼란 유도
Triggerless Poisoning 트리거 없이도 전체 모델 성능을 저하시키는 무작위 왜곡 공격 회귀, 이상 탐지 모델에 영향 큼

3. 공격 사례

  • BadNets (2017): 이미지 분류 모델에 특정 픽셀 패턴 삽입 → 특정 클래스 오답 유도
  • Speech Command Backdoor: 음성 인식에 특정 노이즈 삽입 → 오작동 유발
  • Twitter Sentiment Dataset 공격: 감성 분석 학습 데이터에 일부 트윗 내용 조작 → 결과 왜곡
  • 자율주행 데이터셋 공격: 도로 표지판 이미지에 픽셀 변경 → 모델이 정지 표지판을 무시함

4. 탐지 및 대응 전략

전략 설명
데이터 검증 파이프라인 구축 수집된 데이터에 대한 전처리, 이상 탐지, 중복 제거를 통해 무결성 확인
로버스트 학습 알고리즘 적용 오염 데이터에 강인한 손실 함수 또는 모델 구조 사용
샘플 중요도 분석 및 제거 각 샘플이 학습 결과에 미치는 영향 분석하여 이상 샘플 제거
디페이스닝(De-poisoning) 기법 모델에서 오염 영향을 제거하는 후처리 기반 알고리즘 적용
AI 모델 감사(AI Audit) 학습 데이터, 모델 로그에 대한 리스크 점검 체계화

5. 관련 기술 및 프레임워크

기술/도구 설명
Detectron 이미지 기반 데이터셋에서 이상 샘플 탐지 모델 구축 가능
TorchCleanse PyTorch 기반 클린라벨 오염 탐지 프레임워크
STRIP Defense 백도어 탐지를 위한 입력 민감도 기반 탐지 방식
SISA Training 부분 학습-검증 반복으로 학습 안정성과 오염 탐지 향상
OpenPrompt + PEFT 언어모델에 소량 클린 데이터로 방어 성능 향상 적용

6. 대응을 위한 고려사항

항목 설명
학습 데이터 출처 검증 외부 데이터셋 사용 시 출처 신뢰도와 데이터 변경 여부 확인 필요
오픈소스 활용 주의 누구나 수정 가능한 GitHub 등에서 취득한 데이터셋은 교차 검증 필수
데이터 버전 관리 체계 학습 데이터셋 변경 이력 관리 및 재현 가능한 ML 환경 구축
AI 보안 평가 체계 도입 모델 학습 전후의 보안 위협 요소 정량 분석 도구 도입 필요

7. 결론

데이터 오염 공격은 AI 시스템의 신뢰성과 투명성을 근본적으로 흔드는 은밀하고 효과적인 위협입니다. 특히 고신뢰 예측이 중요한 금융, 의료, 자율주행 등 분야에서는 학습 데이터에 대한 철저한 검증과 지속적인 AI 보안 체계 구축이 필수입니다. 앞으로는 AI 모델의 정확도뿐 아니라 학습 데이터의 무결성과 보안성AI 품질의 핵심 기준이 될 것입니다.

728x90
반응형