728x90
반응형

rlhf대안 2

RLAIF (Reinforcement Learning from AI Feedback)

개요RLAIF(Reinforcement Learning from AI Feedback)는 인공지능 모델의 출력 품질을 향상시키기 위해 인간이 아닌 또 다른 AI의 피드백을 활용하는 강화 학습 기법입니다. 기존 RLHF(Human Feedback)의 확장 버전으로, 비용과 시간 소모가 큰 인간 피드백 대신 AI 평가자를 활용하여 대규모 스케일에서도 효과적인 모델 개선을 가능하게 합니다. OpenAI, Anthropic, DeepMind 등 주요 연구기관에서 실제 LLM 성능 개선에 채택하고 있으며, 차세대 AI 개발 전략의 핵심으로 부상하고 있습니다.1. 개념 및 정의 구분 설명 정의AI 모델의 출력을 또 다른 AI가 비교·평가한 결과를 바탕으로 정책 모델(policy)을 학습시키는 프레임워크목적인간 개..

Topic 2025.05.19

Constitutional AI

개요Constitutional AI는 인공지능 시스템이 사람의 지시나 가치 판단 없이도 스스로 윤리적·법적으로 더 나은 결정을 내릴 수 있도록 학습시키는 기술 패러다임입니다. AI 모델에 일련의 “헌법(Constitution)” 문서를 명시하고, 이를 기반으로 자기 검열(Self-Critique)과 개선(Self-Improvement)을 반복하여 인간 개입 없이도 안전하고 일관된 행동을 유도하는 방식입니다. Anthropic의 Claude 모델 개발을 통해 본격화되었으며, LLM 안전성의 새로운 기준으로 떠오르고 있습니다.1. 개념 및 정의 구분 내용 정의AI가 사전에 주어진 윤리/가이드라인(헌법)에 따라 스스로 판단과 응답을 조정하도록 학습하는 방식목적인간 피드백 없이도 윤리성과 일관성을 갖춘 AI ..

Topic 2025.05.19
728x90
반응형