Soft-label vs. Hard-label Attack(확률 기반 vs. 라벨 기반 적대적 공격)

개요
Soft-label Attack과 Hard-label Attack은 적대적 머신러닝(Adversarial Machine Learning)에서 모델 출력 정보의 접근 수준에 따라 구분되는 대표적인 공격 유형이다. Soft-label Attack은 모델의 확률값(Confidence Score) 또는 로짓(Logit)에 접근 가능한 환경에서 수행되며, Hard-label Attack은 오직 최종 예측 라벨 정보만 활용하는 블랙박스 기반 공격이다. 두 방식은 쿼리 효율성, 공격 난이도, 방어 전략 측면에서 뚜렷한 차이를 보인다.
1. 개념 및 정의
Soft-label Attack은 모델 출력 확률 분포 P(y|x) 또는 로짓 값을 활용하여 그래디언트 또는 손실 함수 기반 최적화를 수행하는 공격 방식이다.
Hard-label Attack은 모델이 반환하는 최종 클래스 라벨 f(x)만을 활용하여 결정 경계를 추정하는 공격 방식이다.
정보 접근 수준이 공격 효율성을 결정하는 핵심 요소이다.
2. 특징 비교
| 구분 | Soft-label Attack | Hard-label Attack |
| 출력 정보 | 확률값/로짓 | 최종 라벨만 |
| 공격 방식 | Gradient 기반 | Boundary 탐색 |
| 쿼리 효율성 | 상대적으로 높음 | 상대적으로 낮음 |
| 현실 적용성 | 제한적(API 공개 필요) | 매우 높음(API 환경) |
Soft-label은 정밀하지만 접근 제약이 존재하며, Hard-label은 정보가 제한적이지만 현실성이 높다.
3. 구성 요소
| 요소 | Soft-label | Hard-label |
| 최적화 기법 | FGSM, PGD, CW | Boundary Attack, HSJA |
| 정보 요구도 | High | Low |
| 탐색 방식 | Gradient Descent | Zeroth-order Optimization |
Soft-label 공격은 손실 함수 기반 미분 계산을 활용하고, Hard-label은 미분 불가 환경에서의 경계 추정을 수행한다.
4. 기술 요소
| 기술 영역 | Soft-label 적용 | Hard-label 적용 |
| 적대적 학습 | 확률 기반 학습 강화 | 경계 강건성 강화 |
| 방어 기법 | Logit Masking | Query 제한 |
| 연구 사례 | Goodfellow et al., 2015 | Brendel et al., 2018 |
최근 연구에서는 Hard-label 공격의 쿼리 효율 개선이 활발히 진행되고 있으며, 실제 상용 API 환경에서는 Hard-label 기반 위협 모델이 더욱 중요하게 평가된다.
5. 장점 및 한계
| 구분 | 장점 | 한계 |
| Soft-label | 빠른 수렴 | 내부 정보 필요 |
| Hard-label | 현실적 위협 | 높은 쿼리 비용 |
두 공격 방식은 정보 접근 수준과 효율성 간의 트레이드오프 관계를 가진다.
6. 주요 활용 사례 및 고려사항
| 적용 환경 | Soft-label | Hard-label |
| 연구 환경 | 모델 내부 접근 가능 | 실험적 비교 |
| 상용 API | 제한적 | 주된 위협 모델 |
| 보안 설계 | Adversarial Training | Rate Limiting, 탐지 시스템 |
NIST AI RMF와 ENISA AI Threat Landscape에서는 블랙박스 기반 공격을 주요 리스크로 분류하며, Hard-label 공격 방어를 위한 이상 탐지 및 질의 모니터링을 권고한다.
한 줄 첨언: 출력 정보의 공개 수준이 곧 공격 난이도를 결정한다.
7. 결론
Soft-label Attack과 Hard-label Attack은 정보 접근 수준에 따른 전략적 차이를 보이는 적대적 공격 유형이다. Soft-label은 정밀 최적화가 가능하지만 접근 제한이 존재하며, Hard-label은 정보 제약 속에서도 현실적인 위협으로 작용한다. 향후 AI 보안 설계에서는 출력 최소화 전략, 질의 기반 이상 탐지, 적대적 학습 강화가 핵심 대응 전략이 될 것이다.