728x90
반응형

tensorflow 4

TRADES (TRadeoff-inspired Adversarial DEfense via Surrogate-loss)

개요TRADES는 딥러닝 모델의 일반화 성능과 적대적 견고성(robustness) 사이의 균형을 수학적으로 정립하고 이를 기반으로 훈련 전략을 구성한 방어 알고리즘입니다. 기존 Adversarial Training이 모델 정확도를 희생하며 견고성을 추구했던 반면, TRADES는 이 둘 사이의 트레이드오프를 명시적으로 고려하여 효과적인 방어를 구현합니다.1. 개념 및 정의TRADES(TRadeoff-inspired Adversarial DEfense via Surrogate-loss)는 정규화된 손실 함수를 통해 모델이 clean data(정상 입력)와 adversarial data(적대 입력) 모두에 대해 견고하게 작동하도록 학습시키는 방법입니다.목적: 모델의 일반화 능력과 적대 견고성 간의 균형 유지핵..

Topic 2025.06.16

PGD (Projected Gradient Descent)

개요PGD(Projected Gradient Descent)는 딥러닝 모델에 대한 적대적 공격 기법 중 가장 강력하고 일반적인 방법으로, 반복적인 그래디언트 업데이트와 투영 과정을 통해 최적의 적대적 예제를 생성합니다. 본 글에서는 PGD의 이론적 원리와 수식, 주요 특징, 구현 방법, 실제 적용 사례 및 방어 전략 등을 포괄적으로 설명합니다.1. 개념 및 정의PGD는 입력 공간에서 손실 함수를 최대화하는 방향으로 여러 번 그래디언트를 계산하고, 그 결과를 원래 입력 범위로 투영하여 적대적 예제를 생성하는 공격 방식입니다. FGSM의 확장된 반복형으로도 간주됩니다.목적: 모델의 예측 취약성을 극대화하기 위한 고강도 테스트필요성: 실제 환경에서 AI 시스템의 보안성과 견고성 검증기반 원리: 경사하강법을 반..

Topic 2025.06.16

FGSM (Fast Gradient Sign Method)

개요FGSM(Fast Gradient Sign Method)은 적대적 예제를 생성하는 대표적인 공격 알고리즘으로, 딥러닝 모델의 입력에 미세한 노이즈를 추가해 잘못된 예측을 유도합니다. 이 글에서는 FGSM의 개념과 작동 원리, 수학적 정의, 적용 사례, 그리고 이를 방어하는 방법 등을 포괄적으로 설명합니다.1. 개념 및 정의FGSM은 입력 이미지에 작은 노이즈를 추가하여 딥러닝 모델이 잘못된 출력을 내도록 유도하는 적대적 공격 기법입니다. 이 노이즈는 손실 함수의 그래디언트를 활용하여 계산되며, 빠른 계산 속도와 단순한 구조가 특징입니다.목적: 딥러닝 모델의 취약점 식별 및 테스트기반 이론: 그래디언트 방향을 활용한 손실 함수 최대화주요 분야: 보안 테스트, 모델 검증, XAI 연구 등2. 특징 항목 ..

Topic 2025.06.16

Integrated Gradients

개요Integrated Gradients는 복잡한 딥러닝 모델의 예측 결과에 대한 신뢰할 수 있는 설명을 제공하는 기법입니다. 본 글에서는 이 기법의 개념, 수학적 기반, 주요 특징과 적용 사례를 중심으로 설명하며, XAI(Explainable AI)의 핵심 도구로서 Integrated Gradients가 왜 중요한지를 탐구합니다.1. 개념 및 정의Integrated Gradients는 입력의 각 피처가 모델의 출력에 미치는 영향을 정량적으로 계산하는 기법입니다. 기존의 그래디언트 기반 방법과 달리, 입력 값과 기준 값(baseline) 사이의 적분을 통해 더 안정적이고 해석 가능한 결과를 제공합니다.목적: 입력 피처의 중요도를 수치로 평가하여 모델의 판단 근거를 설명필요성: 딥러닝 모델의 블랙박스 문제..

Topic 2025.06.15
728x90
반응형