728x90
반응형

Adversarial attack 4

Label-only Attack(Label-Only Adversarial Attack)

개요Label-only Attack은 모델의 내부 확률값이나 로짓(logit) 정보에 접근하지 못하고, 오직 최종 출력 라벨(label) 정보만을 활용하여 수행되는 적대적 공격(Adversarial Attack) 기법이다. 이는 블랙박스(Black-box) 환경에서 활용되는 대표적인 공격 방식으로, 실제 상용 AI API 환경에서 현실적인 위협 모델로 간주된다. 특히 AI 서비스가 예측 확률을 공개하지 않고 분류 결과만 반환하는 경우에도 모델 취약점을 탐색할 수 있다는 점에서 보안상 중요성이 높다.1. 개념 및 정의Label-only Attack은 공격자가 모델의 출력 확률, 그래디언트, 내부 구조에 접근할 수 없는 상황에서 오직 “정답 라벨 변화 여부”만을 기준으로 입력을 반복 수정하여 결정 경계를 탐..

Topic 2026.03.16

Substitute Model(대체 모델)

개요Substitute Model(대체 모델)은 공격자가 블랙박스 접근만 가능한 목표 모델(Target Model)을 직접 분석할 수 없을 때, 입력–출력 쌍을 기반으로 근사 모델을 학습하여 원본 모델의 의사결정 경계를 추정하는 전략이다. 이는 특히 Adversarial Attack(적대적 공격) 및 Model Extraction 공격에서 핵심적으로 활용된다.Goodfellow 등 연구 이후, 블랙박스 환경에서도 공격이 가능하다는 사실이 입증되었으며, Substitute Model은 Gradient 기반 공격을 우회적으로 수행하기 위한 핵심 메커니즘으로 자리잡았다.1. 개념 및 정의Substitute Model은 목표 모델의 예측 결과를 학습 데이터로 활용하여 기능적으로 유사한 모델을 구축하는 방식이다...

Topic 2026.03.12

Query-based Attack(질의 기반 공격)

개요Query-based Attack은 공격자가 대상 AI 모델 또는 MLaaS/LLM API에 반복적으로 질의를 수행하여 출력 결과를 수집하고, 이를 분석해 모델의 내부 동작, 의사결정 경계, 민감 정보 또는 취약점을 추론하는 블랙박스 공격 기법이다. 내부 파라미터 접근 없이도 입력–출력 관계만으로 모델 정보를 추출할 수 있다는 점에서 탐지와 방어가 어렵다.특히 LLM, 이미지 분류 모델, 추천 시스템 등 API 형태로 공개된 AI 서비스가 확산되면서 Query 기반 공격은 모델 탈취(Model Stealing), 모델 추출(Model Extraction), 모델 반전(Model Inversion) 등의 상위 공격 기법의 핵심 메커니즘으로 활용된다.1. 개념 및 정의Query-based Attack은 ..

Topic 2026.03.10

적대적 공격(Adversarial Attack)

개요적대적 공격(Adversarial Attack)은 머신러닝 모델이 잘못된 예측을 하도록 유도하는 교묘한 입력 데이터 변조 기법이다. 이미지, 텍스트, 음성 인식 시스템 등에 적용될 수 있으며, 인공지능(AI) 기반 시스템의 보안 취약점을 악용하는 대표적인 위협 중 하나로 간주된다. 본 글에서는 적대적 공격의 개념, 유형, 동작 원리, 방어 기법 및 활용 사례를 살펴본다.1. 적대적 공격(Adversarial Attack)이란?적대적 공격은 머신러닝 모델이 예상치 못한 오차를 발생시키도록 입력 데이터를 조작하는 기법이다. 공격자는 정교한 변형을 가하여 인간이 인식할 수 없는 변화를 모델에 주입하고, 이를 통해 모델이 잘못된 결정을 내리도록 유도한다.✅ 적대적 공격은 AI 보안 연구에서 가장 중요한 도전..

Topic 2025.03.18
728x90
반응형