개요MADDPG는 다중 에이전트 강화학습(MARL)을 위한 대표적인 알고리즘으로, 각 에이전트가 독립적으로 정책을 학습하면서도, 공동의 환경 이해를 통해 협력 및 경쟁 전략을 최적화할 수 있도록 설계된 Off-policy Actor-Critic 방식의 알고리즘이다. 이는 복잡한 상호작용이 존재하는 환경(예: 로봇 군집, 자율 주행 차량, 게임 에이전트 등)에서 효과적으로 학습할 수 있는 프레임워크를 제공한다.1. 개념 및 정의 항목 설명 정의MADDPG는 DDPG 기반으로 확장된 알고리즘으로, 다중 에이전트 환경에서 각 에이전트가 고유한 정책을 가지며, 중앙집중식 비판자(Critic)를 통해 공동 훈련하는 방식목적에이전트 간 상호작용을 고려한 안정적 정책 학습 수행필요성독립형 DDPG는 상대 에이전트의..