728x90
반응형

DPO 2

RLHF (Reinforcement Learning from Human Feedback)

개요RLHF(Reinforcement Learning from Human Feedback)는 대형언어모델(LLM)의 출력을 인간의 선호(preference)에 더 잘 맞추기 위해 강화학습 기법과 인간 피드백을 결합하는 학습 방법론입니다. 주로 언어모델이 생성하는 응답의 품질, 안전성, 윤리성 등을 개선하는 데 사용되며, ChatGPT, Claude, Gemini 등 최신 LLM에서 광범위하게 활용되고 있습니다. 본 글에서는 RLHF의 개념, 구성 요소, 학습 프로세스, 기술 요소 등을 상세히 설명합니다.1. 개념 및 정의RLHF는 인간이 제공한 피드백을 기반으로, 언어모델의 행동(policy)을 강화학습 방식으로 조정함으로써, 보다 선호도 높은 출력을 유도하는 학습 기법입니다.목적: 언어모델이 인간의 가..

Topic 2025.08.12

Direct Preference Optimization (DPO)

개요Direct Preference Optimization(DPO)는 사용자 피드백 또는 선호 데이터를 직접 활용하여 AI 모델의 행동을 조정하는 최신 최적화 기법입니다. 기존의 강화 학습 방식(RLHF)보다 단순하고 효율적으로 사용자 만족도를 높일 수 있어, AI 모델의 성능을 한 차원 끌어올리는 방식으로 주목받고 있습니다.1. 개념 및 정의 항목 내용 정의사용자 선호(preference)에 기반해 AI 모델의 출력을 직접 최적화하는 방법목적사용자의 기대에 더 부합하는 응답을 생성하는 모델 훈련필요성RLHF의 복잡성과 비용 문제를 해결하고, 보다 정교한 사용자 맞춤 응답 제공DPO는 복잡한 보상 모델 없이도 AI 응답의 질을 향상시키는 방식으로, ChatGPT 등 대규모 언어모델(LLM) 튜닝에 효과..

Topic 2025.05.26
728x90
반응형