728x90
반응형

전체 글 2924

Runtime Instrumentation(Runtime Code Instrumentation)

개요Runtime Instrumentation은 프로그램이 실행되는 동안 코드의 동작을 실시간으로 관찰하고 필요한 정보를 수집하거나 동작을 변경할 수 있도록 하는 기술이다. 전통적인 정적 분석(static analysis)이나 컴파일 단계의 instrumentation과 달리, 런타임 환경에서 동적으로 코드에 후킹(hooking)하거나 바이트코드를 변형하여 시스템의 내부 상태를 분석한다. 이 기술은 APM(Application Performance Monitoring), 보안 탐지, 디버깅, Observability, 테스트 자동화, 프러덕션 장애 분석 등 다양한 영역에서 핵심 기술로 활용된다.최근 클라우드 네이티브 환경과 마이크로서비스 아키텍처 확산으로 인해 서비스 간 호출 추적(Distributed ..

Topic 2026.03.27

Google SAIF (Secure AI Framework)

개요Google SAIF(Secure AI Framework)는 Google이 제안한 인공지능 보안 프레임워크로, AI 시스템의 설계·개발·운영 전반에서 발생할 수 있는 보안 위험을 체계적으로 관리하기 위한 보안 전략 모델이다. 이 프레임워크는 기존 사이버 보안 원칙을 AI 환경에 적용하면서도 AI 특유의 공격 벡터와 위험 요소를 고려하여 설계되었다.SAIF는 데이터, 모델, 인프라, 애플리케이션 전반에 걸쳐 AI 보안을 통합적으로 관리하도록 설계되었으며, 특히 생성형 AI와 대규모 언어모델(LLM) 환경에서 중요한 보안 가이드라인으로 활용되고 있다.1. 개념 및 정의Google SAIF는 AI 시스템 전반에 보안 설계를 적용하여 AI 모델과 데이터, 파이프라인, 사용자 인터페이스까지 포함한 전체 AI ..

Topic 2026.03.27

AI Guardrails(Artificial Intelligence Guardrails)

개요AI Guardrails는 인공지능 시스템이 안전하고 책임감 있게 동작하도록 제어하기 위한 정책, 기술, 운영 체계를 의미한다. 이는 AI 모델이 생성하는 결과의 품질, 윤리성, 안전성, 규제 준수 여부를 지속적으로 관리하기 위한 보호 장치 역할을 한다. 특히 생성형 AI, 대규모 언어모델(LLM), 자동화된 의사결정 시스템이 확산됨에 따라 AI Guardrails는 조직의 AI 거버넌스와 위험 관리 전략에서 핵심 요소로 자리 잡고 있다.1. 개념 및 정의AI Guardrails는 AI 시스템이 허용된 범위 내에서만 동작하도록 제한하고, 위험한 행동이나 부적절한 출력이 발생하지 않도록 제어하는 기술적·정책적 메커니즘이다.주요 목적은 다음과 같다.AI 출력 안전성 확보윤리적 AI 운영 지원규제 및 정책..

Topic 2026.03.26

AST Orchestration(Application Security Testing Orchestration)

개요AST Orchestration은 다양한 애플리케이션 보안 테스트(AST: Application Security Testing) 도구를 통합하여 자동화된 보안 테스트 파이프라인을 구축하고 운영하는 보안 관리 접근 방식이다. 현대 DevSecOps 환경에서는 SAST, DAST, SCA, IaC Security, API Security 등 여러 보안 도구가 사용되며, AST Orchestration은 이러한 도구들을 하나의 통합 플랫폼에서 조정하여 효율적인 보안 테스트와 취약점 관리를 가능하게 한다.1. 개념 및 정의AST Orchestration은 다양한 보안 테스트 도구와 개발 파이프라인을 연결하여 보안 검사를 자동으로 실행하고 결과를 통합 관리하는 보안 운영 체계이다.주요 목적은 다음과 같다.애플..

Topic 2026.03.26

ASPM(Application Security Posture Management)

개요ASPM(Application Security Posture Management)은 애플리케이션 개발 및 운영 전반에서 발생하는 보안 위험을 통합적으로 관리하기 위한 보안 관리 프레임워크이다. 현대 DevSecOps 환경에서는 코드 저장소, CI/CD 파이프라인, 오픈소스 의존성, 클라우드 인프라 등 다양한 영역에서 보안 취약점이 발생할 수 있으며, ASPM은 이러한 분산된 보안 데이터를 통합하여 애플리케이션의 전반적인 보안 상태(Posture)를 지속적으로 분석하고 관리한다.ASPM은 SAST, DAST, SCA, IaC 보안, API 보안 등 여러 보안 도구에서 생성되는 결과를 통합하여 조직이 애플리케이션 보안 위험을 우선순위 기반으로 관리할 수 있도록 지원한다.1. 개념 및 정의ASPM은 애플리..

Topic 2026.03.25

OpenRASP (Open Runtime Application Self-Protection)

개요OpenRASP는 Runtime Application Self-Protection(RASP) 기술을 기반으로 하는 오픈소스 애플리케이션 보안 프레임워크로, 애플리케이션 실행 환경(Runtime) 내부에서 공격을 탐지하고 차단하는 보안 기술이다. 기존의 웹 방화벽(WAF)이나 네트워크 보안 솔루션이 애플리케이션 외부에서 공격을 차단하는 것과 달리, OpenRASP는 애플리케이션 내부에서 동작하며 실제 코드 실행 흐름을 분석하여 공격을 탐지한다.OpenRASP는 특히 SQL Injection, Command Injection, File Inclusion, Deserialization 공격 등 다양한 애플리케이션 공격을 실시간으로 탐지하고 대응할 수 있도록 설계되었다.1. 개념 및 정의OpenRASP는 애..

Topic 2026.03.25

ISO/IEC 27570(Privacy Engineering Requirements for Systems)

개요ISO/IEC 27570은 디지털 시스템과 서비스 설계 과정에서 개인정보 보호 요구사항을 기술적으로 구현하기 위한 프라이버시 엔지니어링(Privacy Engineering) 지침을 제공하는 국제 표준이다. 이 표준은 시스템 설계 단계에서 개인정보 보호 원칙을 통합하여 데이터 수집, 처리, 저장, 공유 과정에서 발생할 수 있는 프라이버시 위험을 최소화하는 것을 목표로 한다. 특히 AI 시스템, 클라우드 플랫폼, 데이터 기반 서비스 환경에서 Privacy by Design 원칙을 실질적으로 구현하기 위한 기술적 프레임워크로 활용된다.1. 개념 및 정의ISO/IEC 27570은 정보 시스템 설계 및 개발 과정에서 개인정보 보호 요구사항을 체계적으로 적용하기 위한 기술적 설계 모델을 정의한다.이 표준의 핵심..

Topic 2026.03.24

ISO/IEC 27563(Privacy Impact Assessment Framework)

개요ISO/IEC 27563은 개인정보 처리 활동이 개인의 프라이버시에 미치는 영향을 체계적으로 평가하기 위한 개인정보 영향평가(Privacy Impact Assessment, PIA) 프레임워크를 정의한 국제 표준이다. 조직이 새로운 시스템, 서비스, 데이터 처리 활동을 도입할 때 개인정보 위험을 사전에 식별하고 완화할 수 있도록 구조적 방법론을 제공한다. 특히 데이터 기반 서비스, AI 시스템, 클라우드 플랫폼 환경에서 프라이버시 위험을 관리하기 위한 핵심 관리 체계로 활용된다.1. 개념 및 정의ISO/IEC 27563은 조직이 개인정보 처리 활동이 개인의 프라이버시에 미치는 잠재적 영향을 분석하고 관리하기 위한 평가 모델을 정의한다.개인정보 영향평가의 주요 목적은 다음과 같다.개인정보 처리 위험 식..

Topic 2026.03.24

ISO/IEC 27555(Data De-identification Framework)

개요ISO/IEC 27555는 조직이 개인정보를 분석, 공유 또는 활용하는 과정에서 개인 식별 위험을 최소화하기 위해 적용할 수 있는 데이터 비식별화(Data De-identification) 운영 프레임워크를 정의하는 국제 표준이다. 이 표준은 데이터 활용과 개인정보 보호 사이의 균형을 유지하기 위해 기술적 비식별화 기법과 관리적 통제 절차를 함께 제시한다. 특히 AI 데이터 활용, 데이터 분석, 데이터 공유 환경에서 개인정보 재식별 위험을 관리하기 위한 핵심 가이드라인으로 활용된다.1. 개념 및 정의ISO/IEC 27555는 개인을 직접 또는 간접적으로 식별할 수 있는 데이터를 변환하거나 제거하여 재식별 가능성을 최소화하는 비식별화 데이터 처리 모델을 정의한다.비식별화의 주요 목적은 다음과 같다.개인..

Topic 2026.03.23

ISO/IEC 27561(Consent Management Interoperability Framework)

개요ISO/IEC 27561은 개인정보 처리에 대한 사용자 동의(Consent)를 다양한 시스템과 서비스 환경에서 상호운용 가능하게 관리하기 위한 국제 표준 프레임워크이다. 이 표준은 조직, 플랫폼, 서비스 간에 동의 정보를 교환하고 해석할 수 있도록 구조화된 모델과 운영 지침을 제공한다. 특히 데이터 경제, 클라우드 서비스, 디지털 플랫폼 환경에서 사용자 동의의 이동성과 투명성을 확보하는 것을 목표로 한다.1. 개념 및 정의ISO/IEC 27561은 개인정보 처리에 대한 사용자의 동의 정보를 여러 서비스 및 데이터 처리 시스템 간에 공유하고 해석할 수 있도록 하는 상호운용성 기반 프레임워크이다.이 표준의 핵심 목적은 다음과 같다.사용자 동의 정보의 시스템 간 호환성 확보개인정보 처리 투명성 강화자동화된..

Topic 2026.03.23

ISO/IEC 27565(Privacy Engineering for AI Systems)

개요ISO/IEC 27565는 인공지능(AI) 시스템의 설계, 개발 및 운영 과정에서 프라이버시 보호를 체계적으로 구현하기 위한 프라이버시 엔지니어링(Privacy Engineering) 프레임워크를 제시하는 국제 표준이다. 이 표준은 AI 모델과 데이터 처리 파이프라인에서 개인정보 보호 요구사항을 기술적으로 구현하는 방법을 제시하며, 개인정보 보호 설계(Privacy by Design) 원칙을 AI 시스템에 적용하도록 지원한다.1. 개념 및 정의ISO/IEC 27565는 AI 시스템의 전 생명주기(데이터 수집, 학습, 추론, 운영)에 걸쳐 프라이버시 보호 메커니즘을 설계하고 구현하기 위한 기술적 접근 방식을 정의한다.핵심 목표는 다음과 같다.AI 시스템 설계 단계에서 프라이버시 고려개인정보 보호 기술의..

Topic 2026.03.22

ISO/IEC 27559(Privacy Operational Model and Framework)

개요ISO/IEC 27559는 조직이 개인정보 보호 활동을 체계적으로 운영하고 관리하기 위한 프라이버시 운영 모델(Privacy Operational Model)을 정의하는 국제 표준이다. 이 표준은 개인정보 보호 정책, 데이터 처리 절차, 기술적 보호 조치, 거버넌스 구조를 통합적으로 관리할 수 있도록 프레임워크를 제공한다. 특히 디지털 서비스와 데이터 중심 비즈니스 환경에서 개인정보 보호 관리체계(PIMS)와 데이터 거버넌스를 강화하는 데 목적이 있다.1. 개념 및 정의ISO/IEC 27559는 조직이 개인정보 보호 정책을 실제 운영 환경에서 효과적으로 실행할 수 있도록 하는 프라이버시 운영 모델을 제시한다. 이 모델은 개인정보 수집, 저장, 처리, 공유 및 폐기까지 전 과정에 대한 관리 구조를 포함..

Topic 2026.03.22

ISO/IEC 27556(Privacy Enhancing Data De-identification Framework)

개요ISO/IEC 27556은 개인정보 보호를 위한 데이터 비식별화(De-identification)와 프라이버시 강화 기술(Privacy Enhancing Technologies, PETs)을 체계적으로 적용하기 위한 국제 표준이다. 이 표준은 조직이 개인정보를 분석, 공유 또는 활용하는 과정에서 개인 식별 가능성을 최소화하고 데이터 활용 가치를 유지할 수 있도록 구조적 지침을 제공한다. 특히 데이터 경제와 AI 분석 환경에서 개인정보 보호와 데이터 활용 간 균형을 달성하기 위한 핵심 프라이버시 기술 프레임워크로 평가된다.1. 개념 및 정의ISO/IEC 27556은 개인을 직접적으로 식별할 수 있는 정보를 제거하거나 변형하여 재식별 가능성을 최소화하는 데이터 처리 방법과 관리 절차를 정의한다.비식별화는..

Topic 2026.03.21

ISO/IEC 27560(Consent Record Information Structure)

개요ISO/IEC 27560은 개인정보 처리 과정에서 생성되는 사용자 동의(Consent)에 대한 기록을 체계적으로 관리하기 위한 정보 구조를 정의한 국제 표준이다. 이 표준은 조직이 개인정보 처리 활동에 대한 동의 정보를 투명하고 검증 가능한 형태로 저장·관리할 수 있도록 지원한다. 특히 GDPR, 개인정보 보호법, 데이터 거버넌스 요구사항과 연계되어 동의 기록의 추적성, 무결성, 감사 가능성을 확보하는 것을 목표로 한다.1. 개념 및 정의ISO/IEC 27560은 개인정보 처리에 대한 사용자의 동의 상태와 관련 메타데이터를 구조화하여 기록하고 관리하기 위한 데이터 모델과 관리 지침을 제공하는 표준이다.동의 기록은 다음과 같은 정보를 포함한다.동의 주체(데이터 주체)동의 대상 데이터 처리 목적동의 시점..

Topic 2026.03.21

ISO/IEC 27562(Consumer Privacy Preferences)

개요ISO/IEC 27562는 소비자가 자신의 개인정보 처리와 관련된 선호도(privacy preferences)를 표준화된 방식으로 표현하고 서비스 제공자가 이를 해석·적용할 수 있도록 지원하는 국제 표준이다. 이 표준은 개인정보 보호 관리체계(PIMS) 및 데이터 거버넌스와 연계되어 사용자 중심의 프라이버시 제어를 구현하는 것을 목표로 한다. 특히 디지털 서비스, IoT, 온라인 플랫폼 환경에서 개인정보 수집·이용·공유에 대한 사용자 의사를 기계 판독 가능한 형태로 전달하고 자동으로 집행할 수 있는 기반을 제공한다.1. 개념 및 정의ISO/IEC 27562는 소비자가 개인정보 처리 방식에 대해 사전에 선호 조건을 정의하고 이를 서비스 시스템이 해석하여 정책으로 적용할 수 있도록 하는 프라이버시 선호도..

Topic 2026.03.20

Proof of Work / Proof of Learning(작업 증명과 학습 증명)

개요Proof of Work(PoW)와 Proof of Learning(PoL)은 분산 시스템에서 신뢰를 확보하기 위한 증명(Proof) 메커니즘이라는 공통점을 가지지만, 목적과 검증 방식에서 본질적인 차이를 가진다. PoW는 블록체인 네트워크에서 연산 자원 소모를 통해 합의를 달성하는 방식이며, PoL은 인공지능 모델 학습 과정 자체를 유의미한 작업으로 간주하고 이를 검증 가능한 형태로 증명하는 차세대 개념이다. 최근 에너지 효율성, AI 연산 자산화, 탈중앙 AI 네트워크의 등장과 함께 두 메커니즘의 비교 논의가 활발히 진행되고 있다.1. 개념 및 정의Proof of Work는 특정 난이도의 해시 연산을 수행함으로써 블록 생성 권한을 획득하는 합의 알고리즘이다. 비트코인 네트워크에서 SHA-256 기..

Topic 2026.03.20

PRADA (Protecting Against DNN Model Stealing Attacks)

개요PRADA는 Deep Neural Network(DNN) 모델 탈취(Model Stealing) 공격을 탐지하기 위해 제안된 질의(Query) 분포 기반 방어 기법이다. 2019년 USENIX Security Symposium에서 Juuti et al.이 발표한 연구로, 모델 추출 공격자가 생성하는 질의 패턴이 정상 사용자 질의 분포와 통계적으로 다르다는 점에 착안하였다. PRADA는 입력 간 거리 분포(distance distribution)를 분석하여 모델 복제 시도를 효과적으로 탐지하는 최초의 체계적 접근 중 하나로 평가된다.1. 개념 및 정의PRADA는 모델 API에 전달되는 입력 샘플 간의 거리 분포를 지속적으로 모니터링하고, 해당 분포가 정규 분포에서 벗어나는지를 통계적으로 검정하여 모델 ..

Topic 2026.03.19

Prediction Poisoning / Output Perturbation(예측 오염 및 출력 교란)

개요Prediction Poisoning 또는 Output Perturbation은 AI 모델의 학습 데이터가 아닌 ‘출력 단계’를 직접 조작하거나 왜곡하여 사용자에게 전달되는 예측 결과의 신뢰성을 저해하는 공격 기법이다. 이는 모델 내부를 변조하지 않더라도 API 응답, 확률값, 순위 결과 등을 교란함으로써 모델 성능을 오판하게 만들거나 의사결정을 왜곡할 수 있다. 특히 SaaS AI, 추천 시스템, 금융 예측 API 환경에서 중요한 보안 위협으로 분류된다.1. 개념 및 정의Prediction Poisoning은 모델이 생성한 예측값에 악의적 노이즈를 주입하거나 특정 클래스의 확률을 인위적으로 증폭·감소시키는 방식으로 결과를 왜곡하는 공격이다.Output Perturbation은 출력 확률 벡터, 순위..

Topic 2026.03.19

Query Auditing / Detection(질의 감사 및 탐지 기술)

개요Query Auditing / Detection은 AI 모델 또는 API 서비스에 대한 질의(Query) 패턴을 분석하여 비정상적 접근, 모델 추출(Model Extraction), 적대적 공격(Adversarial Attack), 과도한 자동화 요청 등을 탐지하는 보안 기술이다. 특히 블랙박스 환경에서 수행되는 Hard-label Attack, Logit-based Extraction, Distillation Attack 등은 반복적이고 통계적으로 특징적인 질의 패턴을 남기기 때문에, 질의 기반 이상 탐지는 실질적인 방어 전략으로 평가된다.1. 개념 및 정의Query Auditing은 API 요청 로그, 입력 분포, 응답 패턴을 지속적으로 수집·분석하여 정상 사용자 행위와 공격 행위를 구분하는 과정..

Topic 2026.03.18

Model Fingerprinting(모델 지문 식별 기술)

개요Model Fingerprinting은 특정 인공지능 모델의 고유한 특성을 식별하고 추적하기 위한 기술적 기법이다. 이는 모델 추출(Model Extraction), 무단 복제(Model Stealing), 지식 증류 기반 탈취 공격 등으로부터 지적 재산권을 보호하고, 모델 출처를 검증하기 위한 핵심 보안 전략으로 활용된다. 최근 상용 AI API와 대규모 언어모델(LLM)의 확산에 따라 모델 무단 사용 여부를 판별하는 기술의 중요성이 급격히 증가하고 있다.1. 개념 및 정의Model Fingerprinting은 모델이 특정 입력 집합에 대해 생성하는 고유한 출력 패턴 또는 결정 경계 특성을 활용하여 해당 모델의 신원을 식별하는 기법이다.이는 디지털 콘텐츠의 워터마킹과 유사하지만, 모델 동작 특성(b..

Topic 2026.03.18

Distillation Attack(Model Distillation-based Model Extraction)

개요Distillation Attack은 원래 모델 경량화 및 성능 향상을 위해 사용되는 지식 증류(Knowledge Distillation) 기법을 악용하여, 대상 모델(Teacher)의 출력 정보를 기반으로 대체 모델(Student)을 학습시키는 모델 추출(Model Extraction) 공격 방식이다. 공격자는 API를 통해 수집한 Soft-label(확률 분포 또는 로짓)을 활용하여 원본 모델과 유사한 성능을 갖는 복제 모델을 구축할 수 있다. 최근 상용 AI API 확산과 함께 지적재산권 침해 및 모델 자산 탈취 리스크가 주요 보안 이슈로 부상하고 있다.1. 개념 및 정의Distillation Attack은 공격자가 대상 모델 f_T(x)의 출력 확률 분포 P_T(y|x)를 수집한 후, 이를 S..

Topic 2026.03.17

Logit-based Extraction(Logit Leakage Attack)

개요Logit-based Extraction은 모델이 반환하는 로짓(Logit) 값 또는 확률 분포 정보를 활용하여 대상 모델의 의사결정 구조를 역추정(Model Extraction)하는 공격 기법이다. 이는 단순 라벨 기반 추출보다 훨씬 정밀한 모델 복제가 가능하며, 상용 API에서 확률값을 노출하는 경우 심각한 지적재산권 및 보안 위협이 될 수 있다. 최근 연구에서는 로짓 정보가 모델 경계와 파라미터 구조를 재구성하는 데 충분한 신호를 제공함이 입증되었다.1. 개념 및 정의Logit-based Extraction은 공격자가 대상 모델 f(x)의 출력 로짓 벡터 z(x)를 수집하고, 이를 기반으로 대체 모델 f'(x)를 학습시켜 원본 모델의 동작을 모사하는 공격 방식이다.일반적인 구조는 다음과 같다.A..

Topic 2026.03.17

Soft-label vs. Hard-label Attack(확률 기반 vs. 라벨 기반 적대적 공격)

개요Soft-label Attack과 Hard-label Attack은 적대적 머신러닝(Adversarial Machine Learning)에서 모델 출력 정보의 접근 수준에 따라 구분되는 대표적인 공격 유형이다. Soft-label Attack은 모델의 확률값(Confidence Score) 또는 로짓(Logit)에 접근 가능한 환경에서 수행되며, Hard-label Attack은 오직 최종 예측 라벨 정보만 활용하는 블랙박스 기반 공격이다. 두 방식은 쿼리 효율성, 공격 난이도, 방어 전략 측면에서 뚜렷한 차이를 보인다.1. 개념 및 정의Soft-label Attack은 모델 출력 확률 분포 P(y|x) 또는 로짓 값을 활용하여 그래디언트 또는 손실 함수 기반 최적화를 수행하는 공격 방식이다.Hard..

Topic 2026.03.16

Label-only Attack(Label-Only Adversarial Attack)

개요Label-only Attack은 모델의 내부 확률값이나 로짓(logit) 정보에 접근하지 못하고, 오직 최종 출력 라벨(label) 정보만을 활용하여 수행되는 적대적 공격(Adversarial Attack) 기법이다. 이는 블랙박스(Black-box) 환경에서 활용되는 대표적인 공격 방식으로, 실제 상용 AI API 환경에서 현실적인 위협 모델로 간주된다. 특히 AI 서비스가 예측 확률을 공개하지 않고 분류 결과만 반환하는 경우에도 모델 취약점을 탐색할 수 있다는 점에서 보안상 중요성이 높다.1. 개념 및 정의Label-only Attack은 공격자가 모델의 출력 확률, 그래디언트, 내부 구조에 접근할 수 없는 상황에서 오직 “정답 라벨 변화 여부”만을 기준으로 입력을 반복 수정하여 결정 경계를 탐..

Topic 2026.03.16

Task Accuracy(Task Performance Accuracy)

개요Task Accuracy는 특정 시스템, 모델, 조직 또는 개인이 주어진 과업(Task)을 얼마나 정확하게 수행했는지를 정량적으로 측정하는 핵심 성능 지표이다. 인공지능, 머신러닝, 소프트웨어 테스트, 데이터 분석, 품질 관리, 운영 관리 등 다양한 분야에서 사용되며, 결과의 신뢰성과 품질을 판단하는 기준이 된다. 특히 AI 모델 평가에서는 Precision, Recall, F1-Score 등과 함께 가장 기본이 되는 평가 척도로 활용된다.1. 개념 및 정의Task Accuracy는 전체 수행 건수 대비 정확하게 수행된 건수의 비율을 의미한다.수식: Accuracy = (정확한 예측 수 / 전체 예측 수) × 100이는 이진 분류(Binary Classification)뿐 아니라 다중 분류(Multi..

Topic 2026.03.15

Fidelity(모델 충실도)

개요Fidelity(모델 충실도)는 원본 모델(Target Model)과 대체 모델(Surrogate/Clone Model) 또는 설명 모델(Explainable Model) 간의 예측 결과가 얼마나 일치하는지를 측정하는 지표이다. 특히 Model Extraction, Knowledge Distillation, Explainable AI(XAI), Adversarial Attack 분석 등 다양한 AI 보안 및 해석 영역에서 핵심 평가 기준으로 활용된다.모델 충실도는 단순 정확도(Accuracy)와는 다르며, 특정 데이터셋에 대해 두 모델의 출력이 얼마나 동일하거나 유사한지를 정량적으로 평가하는 개념이다.1. 개념 및 정의Fidelity는 일반적으로 다음과 같은 질문에 답하기 위한 지표이다.대체 모델이 ..

Topic 2026.03.15

Membership Inference Attack (MIA)

개요Membership Inference Attack(MIA)은 특정 데이터 샘플이 머신러닝 모델의 학습 데이터에 포함되었는지 여부를 추론하는 프라이버시 공격 기법이다. 공격자는 모델의 출력(확률 분포, confidence score, 응답 패턴 등)을 분석하여 해당 데이터가 훈련 세트에 사용되었는지를 예측한다.특히 의료, 금융, 개인화 추천 시스템과 같이 민감한 데이터를 사용하는 AI 모델에서 MIA는 심각한 개인정보 유출 위험을 초래할 수 있다. LLM 및 MLaaS 환경에서도 모델 응답 확률과 토큰 분포를 기반으로 유사한 공격 가능성이 제기되고 있다.1. 개념 및 정의Membership Inference Attack은 모델이 학습 데이터에 대해 일반적으로 더 높은 confidence를 보이는 특성을..

Topic 2026.03.14

Clone Model(모델 복제)

개요Clone Model(모델 복제)은 기존 AI 모델(Target Model)의 기능, 의사결정 경계, 출력 패턴을 재현하기 위해 학습된 복제 모델을 의미한다. 이는 합법적 목적(모델 경량화, 테스트, 연구)으로 활용될 수 있지만, 보안 관점에서는 Model Stealing, Model Extraction, Knockoff Nets와 같은 공격의 결과물로 사용될 수 있다.특히 API 형태로 제공되는 LLM 및 MLaaS 환경에서는 반복 질의를 통해 출력 데이터를 수집한 뒤, 이를 기반으로 Clone Model을 학습시키는 방식이 현실적인 위협으로 평가된다.1. 개념 및 정의Clone Model은 원본 모델의 입력–출력 관계를 학습하여 기능적으로 유사한 모델을 생성하는 접근 방식이다. 내부 파라미터에 접..

Topic 2026.03.13

Substitute Model(대체 모델)

개요Substitute Model(대체 모델)은 공격자가 블랙박스 접근만 가능한 목표 모델(Target Model)을 직접 분석할 수 없을 때, 입력–출력 쌍을 기반으로 근사 모델을 학습하여 원본 모델의 의사결정 경계를 추정하는 전략이다. 이는 특히 Adversarial Attack(적대적 공격) 및 Model Extraction 공격에서 핵심적으로 활용된다.Goodfellow 등 연구 이후, 블랙박스 환경에서도 공격이 가능하다는 사실이 입증되었으며, Substitute Model은 Gradient 기반 공격을 우회적으로 수행하기 위한 핵심 메커니즘으로 자리잡았다.1. 개념 및 정의Substitute Model은 목표 모델의 예측 결과를 학습 데이터로 활용하여 기능적으로 유사한 모델을 구축하는 방식이다...

Topic 2026.03.12

Surrogate Model(대체 모델)

개요Surrogate Model(대체 모델)은 원본 모델(Target Model)의 동작을 근사(Approximation)하거나 모방(Imitation)하기 위해 학습된 보조 모델이다. 주로 블랙박스 환경에서 입력–출력 쌍을 활용하여 원본 모델의 의사결정 경계를 재현하거나, 해석 가능성(Explainability)을 높이기 위한 분석 도구로 사용된다.AI 보안 관점에서는 Model Extraction, Model Stealing, Knockoff Nets 등의 공격에서 핵심 구성 요소로 활용되며, 반대로 방어 관점에서는 모델 해석, 테스트, 성능 분석을 위한 합법적 도구로도 사용된다.1. 개념 및 정의Surrogate Model은 원본 모델의 내부 구조나 파라미터에 직접 접근하지 않고, 출력 결과를 기반..

Topic 2026.03.11
728x90
반응형