
개요
Label-only Attack은 모델의 내부 확률값이나 로짓(logit) 정보에 접근하지 못하고, 오직 최종 출력 라벨(label) 정보만을 활용하여 수행되는 적대적 공격(Adversarial Attack) 기법이다. 이는 블랙박스(Black-box) 환경에서 활용되는 대표적인 공격 방식으로, 실제 상용 AI API 환경에서 현실적인 위협 모델로 간주된다. 특히 AI 서비스가 예측 확률을 공개하지 않고 분류 결과만 반환하는 경우에도 모델 취약점을 탐색할 수 있다는 점에서 보안상 중요성이 높다.
1. 개념 및 정의
Label-only Attack은 공격자가 모델의 출력 확률, 그래디언트, 내부 구조에 접근할 수 없는 상황에서 오직 “정답 라벨 변화 여부”만을 기준으로 입력을 반복 수정하여 결정 경계를 탐색하는 기법이다.
주요 목표는 최소한의 입력 변형으로 모델의 예측 라벨을 변경시키는 것이다.
수학적 관점에서는 다음과 같이 정의할 수 있다.
argmin ||δ||
subject to f(x + δ) ≠ f(x)
여기서 f(x)는 모델의 예측 라벨이며, 확률 정보는 사용되지 않는다.
2. 특징
| 구분 | 설명 | 보안적 의미 |
| 블랙박스 기반 | 내부 정보 접근 불가 | API 환경 위협 |
| 라벨 의존 | 확률·로짓 미사용 | 제한 정보 공격 |
| 반복 탐색 | 질의(Query) 기반 탐색 | Rate Limit 중요 |
Label-only Attack은 제한된 정보만으로도 모델 경계를 추정할 수 있다는 점에서 실무 보안 설계 시 반드시 고려해야 한다.
3. 구성 요소
| 구성 요소 | 설명 | 적용 기술 |
| Query Engine | 반복 입력 생성 | Binary Search |
| Decision Boundary Estimation | 경계 추정 | HopSkipJump |
| Perturbation Strategy | 최소 교란 탐색 | Norm 최소화 |
대표적 기법으로는 HopSkipJump Attack(HSJA)이 있으며, 이는 Decision Boundary 기반 추정을 통해 효율적으로 교란을 계산한다.
4. 기술 요소
| 기술 영역 | 주요 기법 | 세부 내용 |
| 적대적 머신러닝 | Boundary Attack | 라벨 기반 경계 탐색 |
| 최적화 | Gradient-free Optimization | Zeroth-order 방법 |
| 보안 방어 | Adversarial Training | 강건성 향상 |
최근 연구(Brendel et al., 2018; Chen et al., 2020)에 따르면 라벨 기반 공격은 쿼리 효율성을 개선하며 상용 API 환경에서도 실현 가능성이 입증되었다.
5. 장점 및 이점 (공격 관점)
| 장점 | 설명 | 영향 |
| 현실성 | API 환경 적용 가능 | 실제 위협 모델 |
| 정보 비의존 | 확률 정보 불필요 | 보안 우회 가능 |
| 모델 무관성 | 다양한 모델 적용 | 범용 공격 |
보안 관점에서는 공격 난이도가 낮아질 수 있으므로 쿼리 제한 및 탐지 체계가 필수적이다.
6. 주요 활용 사례 및 고려사항
| 적용 분야 | 사례 | 대응 전략 |
| 이미지 분류 API | 상용 비전 API 공격 | Query Rate 제한 |
| 얼굴 인식 | 오인식 유도 | 입력 정규화 |
| 보안 인증 | CAPTCHA 우회 | 이상 탐지 시스템 |
NIST AI Risk Management Framework에서는 블랙박스 공격을 주요 리스크 항목으로 분류하고 있으며, 특히 API 기반 AI 서비스는 질의 기반 공격에 대한 모니터링이 요구된다.
한 줄 첨언: 라벨만으로도 모델은 충분히 공격될 수 있다.
7. 결론
Label-only Attack은 제한된 정보 환경에서도 AI 모델의 결정 경계를 탐색할 수 있는 강력한 블랙박스 공격 기법이다. 상용 AI API 환경에서 현실적인 위협 모델로 간주되며, 쿼리 제한, 적대적 학습, 입력 무작위화 등의 방어 전략이 필수적이다. 향후 AI 보안 설계에서는 출력 최소화 전략과 이상 탐지 체계의 통합이 핵심이 될 것이다.
'Topic' 카테고리의 다른 글
| Soft-label vs. Hard-label Attack(확률 기반 vs. 라벨 기반 적대적 공격) (0) | 2026.03.16 |
|---|---|
| Task Accuracy(Task Performance Accuracy) (0) | 2026.03.15 |
| Fidelity(모델 충실도) (0) | 2026.03.15 |
| Membership Inference Attack (MIA) (0) | 2026.03.14 |
| Clone Model(모델 복제) (0) | 2026.03.13 |