728x90
반응형

robustai 3

Feature Swap

개요Feature Swap은 머신러닝과 인공지능 모델에서 입력 특징(feature)의 위치나 속성을 조작함으로써 모델의 예측을 교란시키는 데이터 기반 공격 기법입니다. 주로 이미지 분류, 자연어 처리, 음성 인식 등의 고차원 입력을 사용하는 AI 시스템에 대해 적용되며, 정확한 분류나 판단을 회피하거나 오답을 유도하는 데 악용됩니다.1. 개념 및 정의Feature Swap은 모델 입력의 주요 feature 위치 또는 속성을 **의도적으로 바꿔치기(Swap)**하여 예측을 왜곡시키는 적대적 공격(adversarial attack) 방식입니다.공격 대상: Vision AI, NLP 모델, 추천 시스템 등공격 목적: 분류 오류, 모델 신뢰도 하락, 필터링 우회 등유형: 공간적 위치 스왑, 시맨틱 스왑, 다차원..

Topic 2025.06.25

TRADES (TRadeoff-inspired Adversarial DEfense via Surrogate-loss)

개요TRADES는 딥러닝 모델의 일반화 성능과 적대적 견고성(robustness) 사이의 균형을 수학적으로 정립하고 이를 기반으로 훈련 전략을 구성한 방어 알고리즘입니다. 기존 Adversarial Training이 모델 정확도를 희생하며 견고성을 추구했던 반면, TRADES는 이 둘 사이의 트레이드오프를 명시적으로 고려하여 효과적인 방어를 구현합니다.1. 개념 및 정의TRADES(TRadeoff-inspired Adversarial DEfense via Surrogate-loss)는 정규화된 손실 함수를 통해 모델이 clean data(정상 입력)와 adversarial data(적대 입력) 모두에 대해 견고하게 작동하도록 학습시키는 방법입니다.목적: 모델의 일반화 능력과 적대 견고성 간의 균형 유지핵..

Topic 2025.06.16

Adversarial Training

개요Adversarial Training은 악의적으로 조작된 입력(적대적 예제, Adversarial Example)에도 견딜 수 있도록 딥러닝 모델을 훈련시키는 보안 중심의 학습 기법입니다. 본 글에서는 Adversarial Training의 원리와 작동 방식, 적용 기술, 장단점, 실제 활용 사례를 다루며, 보안이 중요한 AI 환경에서 이 기술의 필요성과 효과성을 설명합니다.1. 개념 및 정의Adversarial Training은 학습 과정에 적대적 예제를 포함시켜 모델이 이러한 입력에도 강인한 예측 성능을 유지하도록 만드는 기술입니다. 이는 모델을 단순히 일반적인 데이터가 아니라, 공격받을 가능성이 있는 환경에서도 작동하도록 강화합니다.목적: 딥러닝 모델의 취약점을 줄이고 보안성을 높이기 위함필요성..

Topic 2025.06.15
728x90
반응형