Label-only Attack(Label-Only Adversarial Attack)

Topic

Label-only Attack(Label-Only Adversarial Attack)

JackerLab 2026. 3. 16. 09:31

728x90

개요

Label-only Attack은 모델의 내부 확률값이나 로짓(logit) 정보에 접근하지 못하고, 오직 최종 출력 라벨(label) 정보만을 활용하여 수행되는 적대적 공격(Adversarial Attack) 기법이다. 이는 블랙박스(Black-box) 환경에서 활용되는 대표적인 공격 방식으로, 실제 상용 AI API 환경에서 현실적인 위협 모델로 간주된다. 특히 AI 서비스가 예측 확률을 공개하지 않고 분류 결과만 반환하는 경우에도 모델 취약점을 탐색할 수 있다는 점에서 보안상 중요성이 높다.

1. 개념 및 정의

Label-only Attack은 공격자가 모델의 출력 확률, 그래디언트, 내부 구조에 접근할 수 없는 상황에서 오직 “정답 라벨 변화 여부”만을 기준으로 입력을 반복 수정하여 결정 경계를 탐색하는 기법이다.

주요 목표는 최소한의 입력 변형으로 모델의 예측 라벨을 변경시키는 것이다.

수학적 관점에서는 다음과 같이 정의할 수 있다.

argmin ||δ||
subject to f(x + δ) ≠ f(x)

여기서 f(x)는 모델의 예측 라벨이며, 확률 정보는 사용되지 않는다.

2. 특징

구분	설명	보안적 의미
블랙박스 기반	내부 정보 접근 불가	API 환경 위협
라벨 의존	확률·로짓 미사용	제한 정보 공격
반복 탐색	질의(Query) 기반 탐색	Rate Limit 중요

Label-only Attack은 제한된 정보만으로도 모델 경계를 추정할 수 있다는 점에서 실무 보안 설계 시 반드시 고려해야 한다.

3. 구성 요소

구성 요소	설명	적용 기술
Query Engine	반복 입력 생성	Binary Search
Decision Boundary Estimation	경계 추정	HopSkipJump
Perturbation Strategy	최소 교란 탐색	Norm 최소화

대표적 기법으로는 HopSkipJump Attack(HSJA)이 있으며, 이는 Decision Boundary 기반 추정을 통해 효율적으로 교란을 계산한다.

4. 기술 요소

기술 영역	주요 기법	세부 내용
적대적 머신러닝	Boundary Attack	라벨 기반 경계 탐색
최적화	Gradient-free Optimization	Zeroth-order 방법
보안 방어	Adversarial Training	강건성 향상

최근 연구(Brendel et al., 2018; Chen et al., 2020)에 따르면 라벨 기반 공격은 쿼리 효율성을 개선하며 상용 API 환경에서도 실현 가능성이 입증되었다.

5. 장점 및 이점 (공격 관점)

장점	설명	영향
현실성	API 환경 적용 가능	실제 위협 모델
정보 비의존	확률 정보 불필요	보안 우회 가능
모델 무관성	다양한 모델 적용	범용 공격

보안 관점에서는 공격 난이도가 낮아질 수 있으므로 쿼리 제한 및 탐지 체계가 필수적이다.

6. 주요 활용 사례 및 고려사항

적용 분야	사례	대응 전략
이미지 분류 API	상용 비전 API 공격	Query Rate 제한
얼굴 인식	오인식 유도	입력 정규화
보안 인증	CAPTCHA 우회	이상 탐지 시스템

NIST AI Risk Management Framework에서는 블랙박스 공격을 주요 리스크 항목으로 분류하고 있으며, 특히 API 기반 AI 서비스는 질의 기반 공격에 대한 모니터링이 요구된다.

한 줄 첨언: 라벨만으로도 모델은 충분히 공격될 수 있다.

7. 결론

Label-only Attack은 제한된 정보 환경에서도 AI 모델의 결정 경계를 탐색할 수 있는 강력한 블랙박스 공격 기법이다. 상용 AI API 환경에서 현실적인 위협 모델로 간주되며, 쿼리 제한, 적대적 학습, 입력 무작위화 등의 방어 전략이 필수적이다. 향후 AI 보안 설계에서는 출력 최소화 전략과 이상 탐지 체계의 통합이 핵심이 될 것이다.

728x90

'Topic' 카테고리의 다른 글

Logit-based Extraction(Logit Leakage Attack) (0)	2026.03.17
Soft-label vs. Hard-label Attack(확률 기반 vs. 라벨 기반 적대적 공격) (0)	2026.03.16
Task Accuracy(Task Performance Accuracy) (0)	2026.03.15
Fidelity(모델 충실도) (0)	2026.03.15
Membership Inference Attack (MIA) (0)	2026.03.14

현재글Label-only Attack(Label-Only Adversarial Attack)

JackerLab

무료 온라인 플랫폼

둘러보기 →

250x250

ITPE * JackerLab

ITPE 관련 정보를 정리합니다.

Today :
Yesterday :

05-01 01:10

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

ITPE * JackerLab