MADDPG (Multi-Agent Deep Deterministic Policy Gradient)

Topic

MADDPG (Multi-Agent Deep Deterministic Policy Gradient)

JackerLab 2025. 6. 15. 12:25

728x90

개요

MADDPG는 다중 에이전트 강화학습(MARL)을 위한 대표적인 알고리즘으로, 각 에이전트가 독립적으로 정책을 학습하면서도, 공동의 환경 이해를 통해 협력 및 경쟁 전략을 최적화할 수 있도록 설계된 Off-policy Actor-Critic 방식의 알고리즘이다. 이는 복잡한 상호작용이 존재하는 환경(예: 로봇 군집, 자율 주행 차량, 게임 에이전트 등)에서 효과적으로 학습할 수 있는 프레임워크를 제공한다.

1. 개념 및 정의

항목	설명
정의	MADDPG는 DDPG 기반으로 확장된 알고리즘으로, 다중 에이전트 환경에서 각 에이전트가 고유한 정책을 가지며, 중앙집중식 비판자(Critic)를 통해 공동 훈련하는 방식
목적	에이전트 간 상호작용을 고려한 안정적 정책 학습 수행
필요성	독립형 DDPG는 상대 에이전트의 행동을 고려하지 않아 학습 불안정성 초래

2. 특징

특징	설명	기존 알고리즘과 비교
중앙 집중형 Critic	훈련 중 모든 에이전트의 상태/행동 정보를 활용	DDPG는 독립 Critic 기반
분산형 Actor	각 에이전트는 고유한 정책을 학습하고 실행	전체 공유 정책보다 유연함
Off-policy 학습	경험 재사용이 가능하여 샘플 효율성 높음	A3C, PPO 등 On-policy 대비 효율적

MADDPG는 훈련 시 협력/경쟁 관계를 고려하면서 실행 시 분산성을 유지한다.

3. 구성 요소

구성 요소	설명	기술 방식
Actor 네트워크	에이전트 개별 정책 결정 네트워크	상태 → 행동 출력 (πθ)
Critic 네트워크	중앙 Critic이 다중 에이전트의 입력을 통해 Q값 추정	Q(s, a₁, ..., aₙ)
Replay Buffer	경험 저장 및 샘플링	다중 에이전트 동기화된 경험 저장
Target Networks	학습 안정성을 위한 지연 업데이트 네트워크	Soft 업데이트 (τ ≪ 1) 적용

구조적으로 Actor는 각자 학습하지만, Critic은 공동 학습으로 상호작용을 반영한다.

4. 기술 요소

기술	설명	적용 예시
Partial Observability	각 에이전트는 로컬 상태만 관찰	센서 기반 로봇 환경
Parameter Sharing	유사한 역할 간 네트워크 공유 가능	멀티 드론 협력 상황
Continuous Action Space	연속적 제어 문제에 적합	로봇 조작, 드론 비행 등

다양한 환경에 적용 가능하도록 유연성과 확장성이 뛰어난 설계를 기반으로 한다.

5. 장점 및 이점

장점	설명	기대 효과
공동 전략 학습	다중 에이전트 간 전략적 상호작용 반영	협력 및 경쟁 관계에서 안정적 학습 가능
높은 샘플 효율성	Off-policy 구조로 학습 데이터 활용 극대화	데이터 수집 비용 감소
실시간 적용 가능성	학습 후 분산형 Actor로 실행 가능	대규모 시스템에도 적용 용이

MADDPG는 학습과 실행을 분리하여 실시간 제어 환경에도 적합하다.

6. 주요 활용 사례 및 고려사항

사례	내용	고려사항
자율 주행 차량 군집	차량 간 협력적 경로 선택	통신 지연, 센서 오류 고려 필요
전략 게임 에이전트	협동 및 경쟁 기반 전략 수행	복잡한 상태 공간 처리 필요
분산 로봇 제어	여러 로봇의 협업 태스크 수행	제어 주기 및 물리적 충돌 회피 고려

적용 시 관찰 범위, 보상 설계, 학습 안정화 전략이 핵심 요소로 작용한다.

7. 결론

MADDPG는 복잡한 다중 에이전트 환경에서도 안정적인 정책 학습과 협력적 행동 유도를 가능하게 하는 강화학습 알고리즘이다. 실제 환경에서는 로봇 제어, 자율 시스템, 멀티플레이 게임 등 다양한 분야에 적용 가능하며, 향후에는 그래프 기반 메시지 전달, attention 구조 통합 등으로 더욱 발전할 가능성이 높다.

728x90