Topic

Soft-label vs. Hard-label Attack(확률 기반 vs. 라벨 기반 적대적 공격)

JackerLab 2026. 3. 16. 17:32
728x90
반응형

개요

Soft-label Attack과 Hard-label Attack은 적대적 머신러닝(Adversarial Machine Learning)에서 모델 출력 정보의 접근 수준에 따라 구분되는 대표적인 공격 유형이다. Soft-label Attack은 모델의 확률값(Confidence Score) 또는 로짓(Logit)에 접근 가능한 환경에서 수행되며, Hard-label Attack은 오직 최종 예측 라벨 정보만 활용하는 블랙박스 기반 공격이다. 두 방식은 쿼리 효율성, 공격 난이도, 방어 전략 측면에서 뚜렷한 차이를 보인다.


1. 개념 및 정의

Soft-label Attack은 모델 출력 확률 분포 P(y|x) 또는 로짓 값을 활용하여 그래디언트 또는 손실 함수 기반 최적화를 수행하는 공격 방식이다.

Hard-label Attack은 모델이 반환하는 최종 클래스 라벨 f(x)만을 활용하여 결정 경계를 추정하는 공격 방식이다.

정보 접근 수준이 공격 효율성을 결정하는 핵심 요소이다.


2. 특징 비교

구분 Soft-label Attack Hard-label Attack
출력 정보 확률값/로짓 최종 라벨만
공격 방식 Gradient 기반 Boundary 탐색
쿼리 효율성 상대적으로 높음 상대적으로 낮음
현실 적용성 제한적(API 공개 필요) 매우 높음(API 환경)

Soft-label은 정밀하지만 접근 제약이 존재하며, Hard-label은 정보가 제한적이지만 현실성이 높다.


3. 구성 요소

요소 Soft-label Hard-label
최적화 기법 FGSM, PGD, CW Boundary Attack, HSJA
정보 요구도 High Low
탐색 방식 Gradient Descent Zeroth-order Optimization

Soft-label 공격은 손실 함수 기반 미분 계산을 활용하고, Hard-label은 미분 불가 환경에서의 경계 추정을 수행한다.


4. 기술 요소

기술 영역 Soft-label 적용 Hard-label 적용
적대적 학습 확률 기반 학습 강화 경계 강건성 강화
방어 기법 Logit Masking Query 제한
연구 사례 Goodfellow et al., 2015 Brendel et al., 2018

최근 연구에서는 Hard-label 공격의 쿼리 효율 개선이 활발히 진행되고 있으며, 실제 상용 API 환경에서는 Hard-label 기반 위협 모델이 더욱 중요하게 평가된다.


5. 장점 및 한계

구분 장점 한계
Soft-label 빠른 수렴 내부 정보 필요
Hard-label 현실적 위협 높은 쿼리 비용

두 공격 방식은 정보 접근 수준과 효율성 간의 트레이드오프 관계를 가진다.


6. 주요 활용 사례 및 고려사항

적용 환경 Soft-label Hard-label
연구 환경 모델 내부 접근 가능 실험적 비교
상용 API 제한적 주된 위협 모델
보안 설계 Adversarial Training Rate Limiting, 탐지 시스템

NIST AI RMF와 ENISA AI Threat Landscape에서는 블랙박스 기반 공격을 주요 리스크로 분류하며, Hard-label 공격 방어를 위한 이상 탐지 및 질의 모니터링을 권고한다.

한 줄 첨언: 출력 정보의 공개 수준이 곧 공격 난이도를 결정한다.


7. 결론

Soft-label Attack과 Hard-label Attack은 정보 접근 수준에 따른 전략적 차이를 보이는 적대적 공격 유형이다. Soft-label은 정밀 최적화가 가능하지만 접근 제한이 존재하며, Hard-label은 정보 제약 속에서도 현실적인 위협으로 작용한다. 향후 AI 보안 설계에서는 출력 최소화 전략, 질의 기반 이상 탐지, 적대적 학습 강화가 핵심 대응 전략이 될 것이다.

728x90
반응형

'Topic' 카테고리의 다른 글

Label-only Attack(Label-Only Adversarial Attack)  (0) 2026.03.16
Task Accuracy(Task Performance Accuracy)  (0) 2026.03.15
Fidelity(모델 충실도)  (0) 2026.03.15
Membership Inference Attack (MIA)  (0) 2026.03.14
Clone Model(모델 복제)  (0) 2026.03.13