728x90
반응형

Model Stealing 7

Distillation Attack(Model Distillation-based Model Extraction)

개요Distillation Attack은 원래 모델 경량화 및 성능 향상을 위해 사용되는 지식 증류(Knowledge Distillation) 기법을 악용하여, 대상 모델(Teacher)의 출력 정보를 기반으로 대체 모델(Student)을 학습시키는 모델 추출(Model Extraction) 공격 방식이다. 공격자는 API를 통해 수집한 Soft-label(확률 분포 또는 로짓)을 활용하여 원본 모델과 유사한 성능을 갖는 복제 모델을 구축할 수 있다. 최근 상용 AI API 확산과 함께 지적재산권 침해 및 모델 자산 탈취 리스크가 주요 보안 이슈로 부상하고 있다.1. 개념 및 정의Distillation Attack은 공격자가 대상 모델 f_T(x)의 출력 확률 분포 P_T(y|x)를 수집한 후, 이를 S..

Topic 2026.03.17

Logit-based Extraction(Logit Leakage Attack)

개요Logit-based Extraction은 모델이 반환하는 로짓(Logit) 값 또는 확률 분포 정보를 활용하여 대상 모델의 의사결정 구조를 역추정(Model Extraction)하는 공격 기법이다. 이는 단순 라벨 기반 추출보다 훨씬 정밀한 모델 복제가 가능하며, 상용 API에서 확률값을 노출하는 경우 심각한 지적재산권 및 보안 위협이 될 수 있다. 최근 연구에서는 로짓 정보가 모델 경계와 파라미터 구조를 재구성하는 데 충분한 신호를 제공함이 입증되었다.1. 개념 및 정의Logit-based Extraction은 공격자가 대상 모델 f(x)의 출력 로짓 벡터 z(x)를 수집하고, 이를 기반으로 대체 모델 f'(x)를 학습시켜 원본 모델의 동작을 모사하는 공격 방식이다.일반적인 구조는 다음과 같다.A..

Topic 2026.03.17

Clone Model(모델 복제)

개요Clone Model(모델 복제)은 기존 AI 모델(Target Model)의 기능, 의사결정 경계, 출력 패턴을 재현하기 위해 학습된 복제 모델을 의미한다. 이는 합법적 목적(모델 경량화, 테스트, 연구)으로 활용될 수 있지만, 보안 관점에서는 Model Stealing, Model Extraction, Knockoff Nets와 같은 공격의 결과물로 사용될 수 있다.특히 API 형태로 제공되는 LLM 및 MLaaS 환경에서는 반복 질의를 통해 출력 데이터를 수집한 뒤, 이를 기반으로 Clone Model을 학습시키는 방식이 현실적인 위협으로 평가된다.1. 개념 및 정의Clone Model은 원본 모델의 입력–출력 관계를 학습하여 기능적으로 유사한 모델을 생성하는 접근 방식이다. 내부 파라미터에 접..

Topic 2026.03.13

Surrogate Model(대체 모델)

개요Surrogate Model(대체 모델)은 원본 모델(Target Model)의 동작을 근사(Approximation)하거나 모방(Imitation)하기 위해 학습된 보조 모델이다. 주로 블랙박스 환경에서 입력–출력 쌍을 활용하여 원본 모델의 의사결정 경계를 재현하거나, 해석 가능성(Explainability)을 높이기 위한 분석 도구로 사용된다.AI 보안 관점에서는 Model Extraction, Model Stealing, Knockoff Nets 등의 공격에서 핵심 구성 요소로 활용되며, 반대로 방어 관점에서는 모델 해석, 테스트, 성능 분석을 위한 합법적 도구로도 사용된다.1. 개념 및 정의Surrogate Model은 원본 모델의 내부 구조나 파라미터에 직접 접근하지 않고, 출력 결과를 기반..

Topic 2026.03.11

Query-based Attack(질의 기반 공격)

개요Query-based Attack은 공격자가 대상 AI 모델 또는 MLaaS/LLM API에 반복적으로 질의를 수행하여 출력 결과를 수집하고, 이를 분석해 모델의 내부 동작, 의사결정 경계, 민감 정보 또는 취약점을 추론하는 블랙박스 공격 기법이다. 내부 파라미터 접근 없이도 입력–출력 관계만으로 모델 정보를 추출할 수 있다는 점에서 탐지와 방어가 어렵다.특히 LLM, 이미지 분류 모델, 추천 시스템 등 API 형태로 공개된 AI 서비스가 확산되면서 Query 기반 공격은 모델 탈취(Model Stealing), 모델 추출(Model Extraction), 모델 반전(Model Inversion) 등의 상위 공격 기법의 핵심 메커니즘으로 활용된다.1. 개념 및 정의Query-based Attack은 ..

Topic 2026.03.10

Knockoff Nets(모델 모방 공격 기법)

개요Knockoff Nets는 공개된 머신러닝 모델 또는 API에 블랙박스 방식으로 질의(Query)를 수행하여 출력 데이터를 수집한 뒤, 이를 기반으로 유사한 대체 모델(Surrogate Model)을 학습시키는 모델 모방(Model Imitation) 공격 기법이다. 2019년 Orekondy et al.의 논문 *"Knockoff Nets: Stealing Functionality of Black-Box Models"*에서 체계적으로 제안되었으며, 제한된 정보만으로도 고성능 모델을 근사할 수 있음을 실험적으로 입증하였다.특히 MLaaS(Machine Learning as a Service) 및 LLM API 환경에서 모델의 지적 재산(IP)과 상업적 가치를 침해할 수 있는 현실적인 위협으로 평가된다..

Topic 2026.03.09

Model Extraction Attack (MEA)

개요Model Extraction Attack(MEA)는 공격자가 공개된 머신러닝 또는 대규모 언어 모델(LLM) API에 반복적으로 질의(Query)를 보내 모델의 동작을 학습한 후, 이를 기반으로 유사한 대체 모델(Surrogate Model)을 복제하는 공격 기법이다. 이는 모델 파라미터 자체를 직접 탈취하지 않더라도, 출력 응답 패턴을 분석하여 모델의 의사결정 경계를 재구성하는 방식으로 이루어진다.클라우드 기반 AI 서비스가 확산되면서, API 형태로 제공되는 모델의 지적 재산(IP) 보호와 비용 보호 관점에서 MEA는 주요 보안 위협으로 부상하고 있다.1. 개념 및 정의Model Extraction Attack은 블랙박스 접근 환경에서 입력과 출력만을 활용하여 목표 모델의 기능을 근사하는 모델을..

Topic 2026.03.08
728x90
반응형