개요Model Extraction Attack(MEA)는 공격자가 공개된 머신러닝 또는 대규모 언어 모델(LLM) API에 반복적으로 질의(Query)를 보내 모델의 동작을 학습한 후, 이를 기반으로 유사한 대체 모델(Surrogate Model)을 복제하는 공격 기법이다. 이는 모델 파라미터 자체를 직접 탈취하지 않더라도, 출력 응답 패턴을 분석하여 모델의 의사결정 경계를 재구성하는 방식으로 이루어진다.클라우드 기반 AI 서비스가 확산되면서, API 형태로 제공되는 모델의 지적 재산(IP) 보호와 비용 보호 관점에서 MEA는 주요 보안 위협으로 부상하고 있다.1. 개념 및 정의Model Extraction Attack은 블랙박스 접근 환경에서 입력과 출력만을 활용하여 목표 모델의 기능을 근사하는 모델을..