728x90
반응형

강화학습 대안 2

Direct Preference Optimization (DPO)

개요Direct Preference Optimization(DPO)는 사용자 피드백 또는 선호 데이터를 직접 활용하여 AI 모델의 행동을 조정하는 최신 최적화 기법입니다. 기존의 강화 학습 방식(RLHF)보다 단순하고 효율적으로 사용자 만족도를 높일 수 있어, AI 모델의 성능을 한 차원 끌어올리는 방식으로 주목받고 있습니다.1. 개념 및 정의 항목 내용 정의사용자 선호(preference)에 기반해 AI 모델의 출력을 직접 최적화하는 방법목적사용자의 기대에 더 부합하는 응답을 생성하는 모델 훈련필요성RLHF의 복잡성과 비용 문제를 해결하고, 보다 정교한 사용자 맞춤 응답 제공DPO는 복잡한 보상 모델 없이도 AI 응답의 질을 향상시키는 방식으로, ChatGPT 등 대규모 언어모델(LLM) 튜닝에 효과..

Topic 2025.05.26

Evolution Strategies (진화 전략)

개요Evolution Strategies(ES, 진화 전략)은 생물학적 진화의 원리를 모방하여 최적화를 수행하는 알고리즘 계열입니다. ES는 전통적인 경사하강법과 달리, 함수의 미분 정보 없이도 최적화가 가능한 점에서 차별화되며, 특히 모델 기반 최적화, 강화학습(RL), 블랙박스 함수 최적화에 폭넓게 적용되고 있습니다. 최근에는 OpenAI와 DeepMind 등이 대규모 분산 강화학습에서 ES를 강화학습의 대안으로 제시하며 다시 주목받고 있습니다.1. 개념 및 정의ES는 개체(Population)의 집단을 생성하고, 각 개체의 성능(적합도, fitness)을 평가한 뒤, 우수한 개체를 선택(selection) 하여 변이(mutation)와 교차(crossover) 과정을 통해 새로운 세대를 만들어내는 ..

Topic 2025.04.06
728x90
반응형