
개요
Fidelity(모델 충실도)는 원본 모델(Target Model)과 대체 모델(Surrogate/Clone Model) 또는 설명 모델(Explainable Model) 간의 예측 결과가 얼마나 일치하는지를 측정하는 지표이다. 특히 Model Extraction, Knowledge Distillation, Explainable AI(XAI), Adversarial Attack 분석 등 다양한 AI 보안 및 해석 영역에서 핵심 평가 기준으로 활용된다.
모델 충실도는 단순 정확도(Accuracy)와는 다르며, 특정 데이터셋에 대해 두 모델의 출력이 얼마나 동일하거나 유사한지를 정량적으로 평가하는 개념이다.
1. 개념 및 정의
Fidelity는 일반적으로 다음과 같은 질문에 답하기 위한 지표이다.
- 대체 모델이 원본 모델의 의사결정 경계를 얼마나 정확히 근사하는가?
- 설명 모델이 실제 모델의 판단을 얼마나 충실히 반영하는가?
수학적으로는 동일 입력 x에 대해 두 모델 f(x), g(x)의 예측 일치율 또는 출력 분포 유사도를 측정하는 방식으로 정의된다.
2. 특징
| 구분 | 설명 | 평가 관점 |
| 예측 일치율 기반 | 동일 입력에 대한 출력 비교 | 기능 근사 평가 |
| 모델 독립적 | 내부 구조와 무관 | 블랙박스 환경 적용 가능 |
| 보안·해석 양면성 | 공격 성능 또는 설명 신뢰도 측정 | 다목적 활용 |
첨언: Fidelity는 Surrogate Model 품질의 핵심 지표이다.
3. 구성 요소
| 구성 요소 | 역할 | 관련 개념 |
| Target Model | 기준 모델 | Ground Truth 역할 |
| Approximation Model | 근사 또는 설명 모델 | Surrogate / Clone |
| Evaluation Dataset | 비교 입력 집합 | Test / Shadow Data |
첨언: 데이터 분포가 Fidelity 결과에 직접적인 영향을 준다.
4. 기술 요소
| 기술 영역 | 세부 기술 | 설명 |
| Prediction Agreement | Accuracy / F1 비교 | 출력 일치도 측정 |
| Distribution Similarity | KL Divergence | 확률 분포 유사도 |
| Logit Distance | MSE / Cosine Similarity | 내부 표현 비교 |
첨언: Soft Label 기반 비교가 더 정밀한 충실도 평가를 제공한다.
5. 활용 사례
| 활용 분야 | 적용 사례 | 목적 |
| Model Extraction | 복제 모델 품질 평가 | 공격 성능 측정 |
| Explainable AI | 설명 모델 검증 | 해석 신뢰도 확보 |
| Knowledge Distillation | 학생 모델 평가 | 모델 경량화 검증 |
첨언: Fidelity가 높다고 해서 반드시 일반화 성능이 높은 것은 아니다.
6. 보안 및 거버넌스 관점
| 위험 요소 | 설명 | 대응 전략 |
| 높은 Fidelity | 모델 완전 복제 가능성 | Output Hardening |
| Soft Label 노출 | 분포 유사도 증가 | Logit 제한 |
| 과적합 모델 | Membership Inference 취약 | Regularization |
첨언: Fidelity는 공격 성공률의 간접 지표가 될 수 있다.
7. 결론
Fidelity(모델 충실도)는 AI 모델 간 기능적 일관성을 평가하는 핵심 지표로, 모델 복제·설명·경량화·보안 분석 등 다양한 영역에서 활용된다. 특히 AI 보안 관점에서는 높은 충실도가 곧 지적 재산 침해 가능성을 의미할 수 있으므로, 출력 최소화·워터마킹·이상 탐지 등 다계층 방어 전략과 함께 관리되어야 한다. 향후 AI 거버넌스 및 모델 리스크 관리 체계에서 중요한 평가 지표로 지속 활용될 전망이다.
'Topic' 카테고리의 다른 글
| Task Accuracy(Task Performance Accuracy) (0) | 2026.03.15 |
|---|---|
| Membership Inference Attack (MIA) (0) | 2026.03.14 |
| Clone Model(모델 복제) (0) | 2026.03.13 |
| Substitute Model(대체 모델) (1) | 2026.03.12 |
| Surrogate Model(대체 모델) (0) | 2026.03.11 |