Topic

Fidelity(모델 충실도)

JackerLab 2026. 3. 15. 07:42
728x90
반응형

개요

Fidelity(모델 충실도)는 원본 모델(Target Model)과 대체 모델(Surrogate/Clone Model) 또는 설명 모델(Explainable Model) 간의 예측 결과가 얼마나 일치하는지를 측정하는 지표이다. 특히 Model Extraction, Knowledge Distillation, Explainable AI(XAI), Adversarial Attack 분석 등 다양한 AI 보안 및 해석 영역에서 핵심 평가 기준으로 활용된다.

모델 충실도는 단순 정확도(Accuracy)와는 다르며, 특정 데이터셋에 대해 두 모델의 출력이 얼마나 동일하거나 유사한지를 정량적으로 평가하는 개념이다.


1. 개념 및 정의

Fidelity는 일반적으로 다음과 같은 질문에 답하기 위한 지표이다.

  • 대체 모델이 원본 모델의 의사결정 경계를 얼마나 정확히 근사하는가?
  • 설명 모델이 실제 모델의 판단을 얼마나 충실히 반영하는가?

수학적으로는 동일 입력 x에 대해 두 모델 f(x), g(x)의 예측 일치율 또는 출력 분포 유사도를 측정하는 방식으로 정의된다.


2. 특징

구분 설명 평가 관점
예측 일치율 기반 동일 입력에 대한 출력 비교 기능 근사 평가
모델 독립적 내부 구조와 무관 블랙박스 환경 적용 가능
보안·해석 양면성 공격 성능 또는 설명 신뢰도 측정 다목적 활용

첨언: Fidelity는 Surrogate Model 품질의 핵심 지표이다.


3. 구성 요소

구성 요소 역할 관련 개념
Target Model 기준 모델 Ground Truth 역할
Approximation Model 근사 또는 설명 모델 Surrogate / Clone
Evaluation Dataset 비교 입력 집합 Test / Shadow Data

첨언: 데이터 분포가 Fidelity 결과에 직접적인 영향을 준다.


4. 기술 요소

기술 영역 세부 기술 설명
Prediction Agreement Accuracy / F1 비교 출력 일치도 측정
Distribution Similarity KL Divergence 확률 분포 유사도
Logit Distance MSE / Cosine Similarity 내부 표현 비교

첨언: Soft Label 기반 비교가 더 정밀한 충실도 평가를 제공한다.


5. 활용 사례

활용 분야 적용 사례 목적
Model Extraction 복제 모델 품질 평가 공격 성능 측정
Explainable AI 설명 모델 검증 해석 신뢰도 확보
Knowledge Distillation 학생 모델 평가 모델 경량화 검증

첨언: Fidelity가 높다고 해서 반드시 일반화 성능이 높은 것은 아니다.


6. 보안 및 거버넌스 관점

위험 요소 설명 대응 전략
높은 Fidelity 모델 완전 복제 가능성 Output Hardening
Soft Label 노출 분포 유사도 증가 Logit 제한
과적합 모델 Membership Inference 취약 Regularization

첨언: Fidelity는 공격 성공률의 간접 지표가 될 수 있다.


7. 결론

Fidelity(모델 충실도)는 AI 모델 간 기능적 일관성을 평가하는 핵심 지표로, 모델 복제·설명·경량화·보안 분석 등 다양한 영역에서 활용된다. 특히 AI 보안 관점에서는 높은 충실도가 곧 지적 재산 침해 가능성을 의미할 수 있으므로, 출력 최소화·워터마킹·이상 탐지 등 다계층 방어 전략과 함께 관리되어야 한다. 향후 AI 거버넌스 및 모델 리스크 관리 체계에서 중요한 평가 지표로 지속 활용될 전망이다.

728x90
반응형

'Topic' 카테고리의 다른 글

Task Accuracy(Task Performance Accuracy)  (0) 2026.03.15
Membership Inference Attack (MIA)  (0) 2026.03.14
Clone Model(모델 복제)  (0) 2026.03.13
Substitute Model(대체 모델)  (1) 2026.03.12
Surrogate Model(대체 모델)  (0) 2026.03.11