Topic

Soft Actor-Critic (SAC)

JackerLab 2025. 4. 6. 13:11
728x90
반응형

개요

Soft Actor-Critic(SAC)은 오프폴리시(Off-policy) 기반의 강화학습 알고리즘으로, 최적의 보상 획득뿐만 아니라 정책의 무작위성(Entropy)을 극대화하여 학습의 안정성과 탐색성(exploration)을 동시에 추구합니다. SAC는 특히 연속적인 행동 공간(Continuous Action Space) 에서 뛰어난 성능을 보이며, 로봇 제어, 자율 시스템, 모션 계획 등 다양한 현실 환경에 적용되고 있습니다.


1. 개념 및 정의

SAC는 Actor-Critic 구조를 기반으로 하며, 기존 강화학습 알고리즘이 기대 보상(maximum expected reward)을 극대화하는 것과 달리, “보상 + 엔트로피”의 합을 극대화하는 목표 함수를 채택합니다.

  • Maximum Entropy RL: 다양한 행동을 시도하도록 장려하여 더 안정적인 학습 달성
  • Off-policy 방식: 이전 경험을 재사용하여 샘플 효율성 향상

SAC는 정책 π가 다음 상태에서 다양한 행동을 선택할 수 있도록 확률적으로 동작합니다.


2. 특징

항목 설명 비고
확률 정책(Stochastic Policy) 정책이 확률 분포를 따름 다양한 행동 시도 가능
엔트로피 보상 추가 무작위성 장려를 위한 항 항 exploration 유지에 효과적
샘플 효율성 경험 재사용 가능 Replay Buffer 기반

SAC는 DDPG보다 더 안정적이며, PPO보다 더 높은 샘플 활용성을 제공합니다.


3. 구성 요소

구성 요소 설명 예시
Actor (π) 확률 분포 기반 정책 Gaussian policy output
Critic (Q) 상태-행동 가치 함수 Twin Q-network 사용
Value Network (V) 상태 가치 함수 목표 네트워크와 병행 학습
Entropy Coefficient (α) 엔트로피 중요도 조절 파라미터 자동 또는 수동 튜닝 가능

SAC는 Twin Q-Network와 Target Network 구조를 도입하여 overestimation을 방지합니다.


4. 알고리즘 흐름

단계 설명 구성
1. 환경 상호작용 정책 π로 행동 선택, 결과 저장 (s, a, r, s') 샘플링
2. 샘플 추출 Replay Buffer에서 배치 추출 Off-policy 학습 구조
3. Q-network 업데이트 TD 타깃과의 오차 최소화 Bellman Residual 최소화
4. 정책 업데이트 정책 π를 확률적으로 조정 엔트로피 항 포함
5. α 파라미터 조정 엔트로피 조절 항 최적화 학습 안정성 향상

SAC는 학습의 안정성과 데이터 효율을 모두 고려한 균형 잡힌 구조를 가집니다.


5. 장점 및 이점

장점 설명 효과
탐색-활용 균형 무작위성과 보상의 균형 유지 다양한 행동 시도 유도
학습 안정성 정책과 가치 네트워크의 동시 최적화 수렴 속도 향상
연속 공간 대응 실수형 행동 처리 가능 로봇 및 제어 환경에서 적합

SAC는 실제 환경에서 “오작동 없는 강화학습” 구현을 위한 유력한 솔루션입니다.


6. 주요 활용 사례 및 고려사항

분야 활용 사례 고려사항
로봇 제어 관절 제어, 이동 제어 연속 제어 신호 정밀도 확보 필요
자율주행 제동/가속/조향 조절 안전 제약 조건 설계 필수
에너지 최적화 HVAC 시스템 제어 장기적 보상 전략 필요
시뮬레이션 학습 MuJoCo, Isaac Gym 기반 학습 현실 이전(transfer) 전략 설계 필요

엔트로피 항의 중요도를 조절하는 α 값의 튜닝은 성능에 큰 영향을 줄 수 있습니다.


7. 결론

Soft Actor-Critic은 최적 보상과 무작위성의 균형을 통해 학습의 안정성과 효율성을 동시에 달성하는 강화학습 알고리즘입니다. 현실 세계의 복잡한 연속 제어 문제에 강점을 지니며, 앞으로는 HRL, LLM 기반 학습, 멀티에이전트 강화학습과 결합되어 더 정교하고 실용적인 AI 시스템의 핵심 요소로 자리 잡을 것입니다.

728x90
반응형