
개요
Query-based Attack은 공격자가 대상 AI 모델 또는 MLaaS/LLM API에 반복적으로 질의를 수행하여 출력 결과를 수집하고, 이를 분석해 모델의 내부 동작, 의사결정 경계, 민감 정보 또는 취약점을 추론하는 블랙박스 공격 기법이다. 내부 파라미터 접근 없이도 입력–출력 관계만으로 모델 정보를 추출할 수 있다는 점에서 탐지와 방어가 어렵다.
특히 LLM, 이미지 분류 모델, 추천 시스템 등 API 형태로 공개된 AI 서비스가 확산되면서 Query 기반 공격은 모델 탈취(Model Stealing), 모델 추출(Model Extraction), 모델 반전(Model Inversion) 등의 상위 공격 기법의 핵심 메커니즘으로 활용된다.
1. 개념 및 정의
Query-based Attack은 입력 샘플을 체계적으로 생성하고, 모델의 출력(라벨, 확률, 로짓, 텍스트 응답 등)을 수집하여 목표 모델의 특성 또는 내부 구조를 간접적으로 복원하는 공격이다.
이는 블랙박스 환경에서 수행되며, 공격자는 API 응답만을 기반으로 모델 동작을 학습한다. 일부 연구에서는 제한된 질의 횟수만으로도 의사결정 경계를 정밀하게 근사할 수 있음을 보였다.
2. 특징
| 구분 | 설명 | 보안적 의미 |
| 블랙박스 접근 | 내부 파라미터 불필요 | 탐지 난이도 높음 |
| 반복 질의 기반 | 대량 API 호출 | 트래픽 이상 발생 |
| 정보 점진적 축적 | 출력 분석으로 구조 추론 | IP 유출 위험 |
첨언: 출력 확률값 공개 시 공격 효율이 크게 증가한다.
3. 구성 요소
| 구성 요소 | 역할 | 관련 기술 |
| Target Model | 공격 대상 API | MLaaS, LLM Endpoint |
| Query Generator | 입력 자동 생성 | Random / Adaptive Sampling |
| Analyzer | 출력 패턴 분석 | Statistical Inference |
첨언: Adaptive Query는 정보량이 높은 입력을 선택한다.
4. 기술 요소
| 기술 영역 | 세부 기술 | 설명 |
| Active Learning | 경계 탐색 질의 | 효율적 정보 획득 |
| Gradient Estimation | 출력 기반 기울기 근사 | 모델 구조 추론 |
| Rate Limit 우회 | 분산 트래픽 | 탐지 회피 |
첨언: LLM 환경에서는 Temperature 및 Top-p 설정이 공격 난이도에 영향.
5. 공격 유형 확장
| 확장 유형 | 설명 | 연계 공격 |
| Model Extraction | 모델 기능 복제 | Knockoff Nets |
| Model Inversion | 학습 데이터 추정 | Privacy Leakage |
| Adversarial Query | 오답 유도 | Robustness 공격 |
첨언: Query 기반 공격은 다양한 AI 보안 위협의 기반 기술이다.
6. 대응 전략 및 고려사항
| 대응 방안 | 설명 | 적용 기술 |
| Rate Limiting | 질의 수 제한 | API 보호 |
| Output Hardening | 확률·로짓 비공개 | 정보 최소화 |
| 이상 탐지 | 비정상 질의 패턴 분석 | Behavioral Monitoring |
첨언: Differential Privacy 및 응답 노이즈 삽입이 연구되고 있다.
7. 결론
Query-based Attack은 블랙박스 환경에서 AI 모델을 체계적으로 분석하고 탈취할 수 있는 핵심 공격 메커니즘이다. 모델 API 공개 환경이 확산됨에 따라, 단순 인증 체계를 넘어 출력 최소화, 이상 탐지, 트래픽 분석, 워터마킹을 결합한 다계층 방어 전략이 요구된다. AI 보안 및 모델 거버넌스 영역에서 지속적으로 중요성이 증가할 공격 유형이다.
'Topic' 카테고리의 다른 글
| Functionally Equivalent Extraction(FEE) (0) | 2026.03.09 |
|---|---|
| Knockoff Nets(모델 모방 공격 기법) (0) | 2026.03.09 |
| Model Stealing Attack(모델 탈취 공격) (0) | 2026.03.08 |
| Model Extraction Attack (MEA) (0) | 2026.03.08 |
| VDRP(Vulnerability Disclosure & Remediation Policy) (0) | 2026.03.07 |