728x90
반응형

Gradient Attack 2

Soft-label vs. Hard-label Attack(확률 기반 vs. 라벨 기반 적대적 공격)

개요Soft-label Attack과 Hard-label Attack은 적대적 머신러닝(Adversarial Machine Learning)에서 모델 출력 정보의 접근 수준에 따라 구분되는 대표적인 공격 유형이다. Soft-label Attack은 모델의 확률값(Confidence Score) 또는 로짓(Logit)에 접근 가능한 환경에서 수행되며, Hard-label Attack은 오직 최종 예측 라벨 정보만 활용하는 블랙박스 기반 공격이다. 두 방식은 쿼리 효율성, 공격 난이도, 방어 전략 측면에서 뚜렷한 차이를 보인다.1. 개념 및 정의Soft-label Attack은 모델 출력 확률 분포 P(y|x) 또는 로짓 값을 활용하여 그래디언트 또는 손실 함수 기반 최적화를 수행하는 공격 방식이다.Hard..

Topic 2026.03.16

Substitute Model(대체 모델)

개요Substitute Model(대체 모델)은 공격자가 블랙박스 접근만 가능한 목표 모델(Target Model)을 직접 분석할 수 없을 때, 입력–출력 쌍을 기반으로 근사 모델을 학습하여 원본 모델의 의사결정 경계를 추정하는 전략이다. 이는 특히 Adversarial Attack(적대적 공격) 및 Model Extraction 공격에서 핵심적으로 활용된다.Goodfellow 등 연구 이후, 블랙박스 환경에서도 공격이 가능하다는 사실이 입증되었으며, Substitute Model은 Gradient 기반 공격을 우회적으로 수행하기 위한 핵심 메커니즘으로 자리잡았다.1. 개념 및 정의Substitute Model은 목표 모델의 예측 결과를 학습 데이터로 활용하여 기능적으로 유사한 모델을 구축하는 방식이다...

Topic 2026.03.12
728x90
반응형