728x90
반응형

AI risk 8

Shadow AI

개요Shadow AI는 조직의 공식 승인이나 관리 체계를 거치지 않고 직원들이 개인적으로 생성형 AI(예: ChatGPT, Claude, Copilot 등)나 AI 기반 서비스를 사용하는 현상을 의미한다. 이는 과거 Shadow IT의 확장 개념으로, 특히 생성형 AI 확산과 함께 빠르게 증가하고 있는 새로운 보안 및 거버넌스 이슈이다.기업 구성원들은 생산성 향상을 위해 다양한 AI 도구를 자발적으로 활용하지만, 이러한 사용이 조직의 보안 정책이나 데이터 관리 기준을 벗어나는 경우 데이터 유출, 지적재산권 침해, 규제 위반 등의 위험이 발생할 수 있다.최근 Gartner 및 주요 보안 기관에서는 Shadow AI를 차세대 기업 보안 리스크로 정의하며, 이에 대한 관리 전략 수립의 필요성을 강조하고 있다...

Topic 2026.04.03

PRADA (Protecting Against DNN Model Stealing Attacks)

개요PRADA는 Deep Neural Network(DNN) 모델 탈취(Model Stealing) 공격을 탐지하기 위해 제안된 질의(Query) 분포 기반 방어 기법이다. 2019년 USENIX Security Symposium에서 Juuti et al.이 발표한 연구로, 모델 추출 공격자가 생성하는 질의 패턴이 정상 사용자 질의 분포와 통계적으로 다르다는 점에 착안하였다. PRADA는 입력 간 거리 분포(distance distribution)를 분석하여 모델 복제 시도를 효과적으로 탐지하는 최초의 체계적 접근 중 하나로 평가된다.1. 개념 및 정의PRADA는 모델 API에 전달되는 입력 샘플 간의 거리 분포를 지속적으로 모니터링하고, 해당 분포가 정규 분포에서 벗어나는지를 통계적으로 검정하여 모델 ..

Topic 2026.03.19

Prediction Poisoning / Output Perturbation(예측 오염 및 출력 교란)

개요Prediction Poisoning 또는 Output Perturbation은 AI 모델의 학습 데이터가 아닌 ‘출력 단계’를 직접 조작하거나 왜곡하여 사용자에게 전달되는 예측 결과의 신뢰성을 저해하는 공격 기법이다. 이는 모델 내부를 변조하지 않더라도 API 응답, 확률값, 순위 결과 등을 교란함으로써 모델 성능을 오판하게 만들거나 의사결정을 왜곡할 수 있다. 특히 SaaS AI, 추천 시스템, 금융 예측 API 환경에서 중요한 보안 위협으로 분류된다.1. 개념 및 정의Prediction Poisoning은 모델이 생성한 예측값에 악의적 노이즈를 주입하거나 특정 클래스의 확률을 인위적으로 증폭·감소시키는 방식으로 결과를 왜곡하는 공격이다.Output Perturbation은 출력 확률 벡터, 순위..

Topic 2026.03.19

Query Auditing / Detection(질의 감사 및 탐지 기술)

개요Query Auditing / Detection은 AI 모델 또는 API 서비스에 대한 질의(Query) 패턴을 분석하여 비정상적 접근, 모델 추출(Model Extraction), 적대적 공격(Adversarial Attack), 과도한 자동화 요청 등을 탐지하는 보안 기술이다. 특히 블랙박스 환경에서 수행되는 Hard-label Attack, Logit-based Extraction, Distillation Attack 등은 반복적이고 통계적으로 특징적인 질의 패턴을 남기기 때문에, 질의 기반 이상 탐지는 실질적인 방어 전략으로 평가된다.1. 개념 및 정의Query Auditing은 API 요청 로그, 입력 분포, 응답 패턴을 지속적으로 수집·분석하여 정상 사용자 행위와 공격 행위를 구분하는 과정..

Topic 2026.03.18

Model Fingerprinting(모델 지문 식별 기술)

개요Model Fingerprinting은 특정 인공지능 모델의 고유한 특성을 식별하고 추적하기 위한 기술적 기법이다. 이는 모델 추출(Model Extraction), 무단 복제(Model Stealing), 지식 증류 기반 탈취 공격 등으로부터 지적 재산권을 보호하고, 모델 출처를 검증하기 위한 핵심 보안 전략으로 활용된다. 최근 상용 AI API와 대규모 언어모델(LLM)의 확산에 따라 모델 무단 사용 여부를 판별하는 기술의 중요성이 급격히 증가하고 있다.1. 개념 및 정의Model Fingerprinting은 모델이 특정 입력 집합에 대해 생성하는 고유한 출력 패턴 또는 결정 경계 특성을 활용하여 해당 모델의 신원을 식별하는 기법이다.이는 디지털 콘텐츠의 워터마킹과 유사하지만, 모델 동작 특성(b..

Topic 2026.03.18

Distillation Attack(Model Distillation-based Model Extraction)

개요Distillation Attack은 원래 모델 경량화 및 성능 향상을 위해 사용되는 지식 증류(Knowledge Distillation) 기법을 악용하여, 대상 모델(Teacher)의 출력 정보를 기반으로 대체 모델(Student)을 학습시키는 모델 추출(Model Extraction) 공격 방식이다. 공격자는 API를 통해 수집한 Soft-label(확률 분포 또는 로짓)을 활용하여 원본 모델과 유사한 성능을 갖는 복제 모델을 구축할 수 있다. 최근 상용 AI API 확산과 함께 지적재산권 침해 및 모델 자산 탈취 리스크가 주요 보안 이슈로 부상하고 있다.1. 개념 및 정의Distillation Attack은 공격자가 대상 모델 f_T(x)의 출력 확률 분포 P_T(y|x)를 수집한 후, 이를 S..

Topic 2026.03.17

Logit-based Extraction(Logit Leakage Attack)

개요Logit-based Extraction은 모델이 반환하는 로짓(Logit) 값 또는 확률 분포 정보를 활용하여 대상 모델의 의사결정 구조를 역추정(Model Extraction)하는 공격 기법이다. 이는 단순 라벨 기반 추출보다 훨씬 정밀한 모델 복제가 가능하며, 상용 API에서 확률값을 노출하는 경우 심각한 지적재산권 및 보안 위협이 될 수 있다. 최근 연구에서는 로짓 정보가 모델 경계와 파라미터 구조를 재구성하는 데 충분한 신호를 제공함이 입증되었다.1. 개념 및 정의Logit-based Extraction은 공격자가 대상 모델 f(x)의 출력 로짓 벡터 z(x)를 수집하고, 이를 기반으로 대체 모델 f'(x)를 학습시켜 원본 모델의 동작을 모사하는 공격 방식이다.일반적인 구조는 다음과 같다.A..

Topic 2026.03.17

Label-only Attack(Label-Only Adversarial Attack)

개요Label-only Attack은 모델의 내부 확률값이나 로짓(logit) 정보에 접근하지 못하고, 오직 최종 출력 라벨(label) 정보만을 활용하여 수행되는 적대적 공격(Adversarial Attack) 기법이다. 이는 블랙박스(Black-box) 환경에서 활용되는 대표적인 공격 방식으로, 실제 상용 AI API 환경에서 현실적인 위협 모델로 간주된다. 특히 AI 서비스가 예측 확률을 공개하지 않고 분류 결과만 반환하는 경우에도 모델 취약점을 탐색할 수 있다는 점에서 보안상 중요성이 높다.1. 개념 및 정의Label-only Attack은 공격자가 모델의 출력 확률, 그래디언트, 내부 구조에 접근할 수 없는 상황에서 오직 “정답 라벨 변화 여부”만을 기준으로 입력을 반복 수정하여 결정 경계를 탐..

Topic 2026.03.16
728x90
반응형