728x90
반응형

블랙박스 공격 4

Distillation Attack(Model Distillation-based Model Extraction)

개요Distillation Attack은 원래 모델 경량화 및 성능 향상을 위해 사용되는 지식 증류(Knowledge Distillation) 기법을 악용하여, 대상 모델(Teacher)의 출력 정보를 기반으로 대체 모델(Student)을 학습시키는 모델 추출(Model Extraction) 공격 방식이다. 공격자는 API를 통해 수집한 Soft-label(확률 분포 또는 로짓)을 활용하여 원본 모델과 유사한 성능을 갖는 복제 모델을 구축할 수 있다. 최근 상용 AI API 확산과 함께 지적재산권 침해 및 모델 자산 탈취 리스크가 주요 보안 이슈로 부상하고 있다.1. 개념 및 정의Distillation Attack은 공격자가 대상 모델 f_T(x)의 출력 확률 분포 P_T(y|x)를 수집한 후, 이를 S..

Topic 2026.03.17

Logit-based Extraction(Logit Leakage Attack)

개요Logit-based Extraction은 모델이 반환하는 로짓(Logit) 값 또는 확률 분포 정보를 활용하여 대상 모델의 의사결정 구조를 역추정(Model Extraction)하는 공격 기법이다. 이는 단순 라벨 기반 추출보다 훨씬 정밀한 모델 복제가 가능하며, 상용 API에서 확률값을 노출하는 경우 심각한 지적재산권 및 보안 위협이 될 수 있다. 최근 연구에서는 로짓 정보가 모델 경계와 파라미터 구조를 재구성하는 데 충분한 신호를 제공함이 입증되었다.1. 개념 및 정의Logit-based Extraction은 공격자가 대상 모델 f(x)의 출력 로짓 벡터 z(x)를 수집하고, 이를 기반으로 대체 모델 f'(x)를 학습시켜 원본 모델의 동작을 모사하는 공격 방식이다.일반적인 구조는 다음과 같다.A..

Topic 2026.03.17

Soft-label vs. Hard-label Attack(확률 기반 vs. 라벨 기반 적대적 공격)

개요Soft-label Attack과 Hard-label Attack은 적대적 머신러닝(Adversarial Machine Learning)에서 모델 출력 정보의 접근 수준에 따라 구분되는 대표적인 공격 유형이다. Soft-label Attack은 모델의 확률값(Confidence Score) 또는 로짓(Logit)에 접근 가능한 환경에서 수행되며, Hard-label Attack은 오직 최종 예측 라벨 정보만 활용하는 블랙박스 기반 공격이다. 두 방식은 쿼리 효율성, 공격 난이도, 방어 전략 측면에서 뚜렷한 차이를 보인다.1. 개념 및 정의Soft-label Attack은 모델 출력 확률 분포 P(y|x) 또는 로짓 값을 활용하여 그래디언트 또는 손실 함수 기반 최적화를 수행하는 공격 방식이다.Hard..

Topic 2026.03.16

Label-only Attack(Label-Only Adversarial Attack)

개요Label-only Attack은 모델의 내부 확률값이나 로짓(logit) 정보에 접근하지 못하고, 오직 최종 출력 라벨(label) 정보만을 활용하여 수행되는 적대적 공격(Adversarial Attack) 기법이다. 이는 블랙박스(Black-box) 환경에서 활용되는 대표적인 공격 방식으로, 실제 상용 AI API 환경에서 현실적인 위협 모델로 간주된다. 특히 AI 서비스가 예측 확률을 공개하지 않고 분류 결과만 반환하는 경우에도 모델 취약점을 탐색할 수 있다는 점에서 보안상 중요성이 높다.1. 개념 및 정의Label-only Attack은 공격자가 모델의 출력 확률, 그래디언트, 내부 구조에 접근할 수 없는 상황에서 오직 “정답 라벨 변화 여부”만을 기준으로 입력을 반복 수정하여 결정 경계를 탐..

Topic 2026.03.16
728x90
반응형