개요Soft Actor-Critic(SAC)은 오프폴리시(Off-policy) 기반의 강화학습 알고리즘으로, 최적의 보상 획득뿐만 아니라 정책의 무작위성(Entropy)을 극대화하여 학습의 안정성과 탐색성(exploration)을 동시에 추구합니다. SAC는 특히 연속적인 행동 공간(Continuous Action Space) 에서 뛰어난 성능을 보이며, 로봇 제어, 자율 시스템, 모션 계획 등 다양한 현실 환경에 적용되고 있습니다.1. 개념 및 정의SAC는 Actor-Critic 구조를 기반으로 하며, 기존 강화학습 알고리즘이 기대 보상(maximum expected reward)을 극대화하는 것과 달리, “보상 + 엔트로피”의 합을 극대화하는 목표 함수를 채택합니다.Maximum Entropy RL:..