Topic

MADDPG (Multi-Agent Deep Deterministic Policy Gradient)

JackerLab 2025. 6. 15. 12:25
728x90
반응형

개요

MADDPG는 다중 에이전트 강화학습(MARL)을 위한 대표적인 알고리즘으로, 각 에이전트가 독립적으로 정책을 학습하면서도, 공동의 환경 이해를 통해 협력 및 경쟁 전략을 최적화할 수 있도록 설계된 Off-policy Actor-Critic 방식의 알고리즘이다. 이는 복잡한 상호작용이 존재하는 환경(예: 로봇 군집, 자율 주행 차량, 게임 에이전트 등)에서 효과적으로 학습할 수 있는 프레임워크를 제공한다.


1. 개념 및 정의

항목 설명
정의 MADDPG는 DDPG 기반으로 확장된 알고리즘으로, 다중 에이전트 환경에서 각 에이전트가 고유한 정책을 가지며, 중앙집중식 비판자(Critic)를 통해 공동 훈련하는 방식
목적 에이전트 간 상호작용을 고려한 안정적 정책 학습 수행
필요성 독립형 DDPG는 상대 에이전트의 행동을 고려하지 않아 학습 불안정성 초래

2. 특징

특징 설명 기존 알고리즘과 비교
중앙 집중형 Critic 훈련 중 모든 에이전트의 상태/행동 정보를 활용 DDPG는 독립 Critic 기반
분산형 Actor 각 에이전트는 고유한 정책을 학습하고 실행 전체 공유 정책보다 유연함
Off-policy 학습 경험 재사용이 가능하여 샘플 효율성 높음 A3C, PPO 등 On-policy 대비 효율적

MADDPG는 훈련 시 협력/경쟁 관계를 고려하면서 실행 시 분산성을 유지한다.


3. 구성 요소

구성 요소 설명 기술 방식
Actor 네트워크 에이전트 개별 정책 결정 네트워크 상태 → 행동 출력 (πθ)
Critic 네트워크 중앙 Critic이 다중 에이전트의 입력을 통해 Q값 추정 Q(s, a₁, ..., aₙ)
Replay Buffer 경험 저장 및 샘플링 다중 에이전트 동기화된 경험 저장
Target Networks 학습 안정성을 위한 지연 업데이트 네트워크 Soft 업데이트 (τ ≪ 1) 적용

구조적으로 Actor는 각자 학습하지만, Critic은 공동 학습으로 상호작용을 반영한다.


4. 기술 요소

기술 설명 적용 예시
Partial Observability 각 에이전트는 로컬 상태만 관찰 센서 기반 로봇 환경
Parameter Sharing 유사한 역할 간 네트워크 공유 가능 멀티 드론 협력 상황
Continuous Action Space 연속적 제어 문제에 적합 로봇 조작, 드론 비행 등

다양한 환경에 적용 가능하도록 유연성과 확장성이 뛰어난 설계를 기반으로 한다.


5. 장점 및 이점

장점 설명 기대 효과
공동 전략 학습 다중 에이전트 간 전략적 상호작용 반영 협력 및 경쟁 관계에서 안정적 학습 가능
높은 샘플 효율성 Off-policy 구조로 학습 데이터 활용 극대화 데이터 수집 비용 감소
실시간 적용 가능성 학습 후 분산형 Actor로 실행 가능 대규모 시스템에도 적용 용이

MADDPG는 학습과 실행을 분리하여 실시간 제어 환경에도 적합하다.


6. 주요 활용 사례 및 고려사항

사례 내용 고려사항
자율 주행 차량 군집 차량 간 협력적 경로 선택 통신 지연, 센서 오류 고려 필요
전략 게임 에이전트 협동 및 경쟁 기반 전략 수행 복잡한 상태 공간 처리 필요
분산 로봇 제어 여러 로봇의 협업 태스크 수행 제어 주기 및 물리적 충돌 회피 고려

적용 시 관찰 범위, 보상 설계, 학습 안정화 전략이 핵심 요소로 작용한다.


7. 결론

MADDPG는 복잡한 다중 에이전트 환경에서도 안정적인 정책 학습과 협력적 행동 유도를 가능하게 하는 강화학습 알고리즘이다. 실제 환경에서는 로봇 제어, 자율 시스템, 멀티플레이 게임 등 다양한 분야에 적용 가능하며, 향후에는 그래프 기반 메시지 전달, attention 구조 통합 등으로 더욱 발전할 가능성이 높다.

728x90
반응형