728x90
반응형

ai 신뢰성 3

Overreliance

개요Overreliance(과도한 의존)는 대규모 언어 모델(LLM) 의 출력 결과를 사용자가 비판적 검증 없이 그대로 수용할 때 발생하는 보안 및 운영상의 위험입니다. LLM은 설득력 있는 텍스트를 생성하지만, 항상 사실적이거나 안전하지 않을 수 있기 때문에 무비판적 의존은 심각한 피해를 초래할 수 있습니다.1. 개념 및 정의 구분 내용 정의Overreliance는 LLM 출력에 대한 사용자 또는 시스템의 무비판적 신뢰를 의미합니다.목적AI 활용 시 인간의 검증 절차를 포함해 오류 및 위험을 최소화필요성LLM은 불완전한 정보와 환각(Hallucination)을 생성할 수 있음이는 OWASP LLM Top 10의 아홉 번째 주요 보안 위험으로 지정됩니다.2. 특징특징설명비교환각(Hallucination..

Topic 2025.09.22

Self-Consistency Prompt Voting

개요Self-Consistency Prompt Voting은 하나의 프롬프트에 대해 다수의 응답을 생성하고, 그 중 논리적으로 일관된 답변을 다수결 투표로 선택하여 최종 출력을 결정하는 방법입니다. 이는 특히 chain-of-thought prompting(COT)과 함께 사용될 때 효과적으로 모델의 추론 능력과 일관성을 향상시킵니다. 인간과 유사한 사고 체계를 모방하는 방식으로 복잡한 문제에 대해 더 정확하고 신뢰할 수 있는 결과를 도출합니다.1. 개념 및 정의 항목 설명 비고 정의언어 모델의 동일한 프롬프트에 대해 여러 출력을 생성하고, 가장 일관된 응답을 다수결 투표로 결정하는 전략Wang et al. (2022) 도입목적추론 정확도 향상 및 일관성 확보Chain-of-thought(COT)과 ..

Topic 2025.05.31

Adversarial Training (적대적 훈련)

개요적대적 훈련(Adversarial Training)은 머신러닝 모델을 적대적 공격(Adversarial Attack)에 대비하여 더욱 강력하게 만드는 기법입니다. 적대적 예제(Adversarial Example)를 생성하여 모델이 이를 학습하고 보다 견고한 성능을 유지하도록 훈련합니다. 이는 특히 이미지 인식, 자연어 처리(NLP), 자율 주행 및 보안 시스템에서 중요한 역할을 합니다. 본 글에서는 적대적 훈련의 개념, 주요 기술, 활용 사례 및 장단점을 살펴봅니다.1. 적대적 훈련이란?적대적 훈련은 모델이 적대적 예제(공격 데이터)를 학습하도록 하여 보안성을 높이는 기법입니다. 공격자는 원본 데이터에 작은 노이즈를 추가하여 모델이 잘못된 결과를 출력하도록 유도하는데, 적대적 훈련은 이러한 공격을 미..

Topic 2025.03.08
728x90
반응형