개요Memory Replay Buffer(메모리 리플레이 버퍼)는 강화 학습(Reinforcement Learning, RL)에서 에이전트가 수집한 과거 경험을 저장하고, 이를 반복적으로 학습에 활용하기 위해 사용하는 핵심 구조입니다. 비효율적인 학습을 방지하고, 데이터의 다양성을 확보하여 더 안정적이고 효율적인 정책 학습을 가능하게 만듭니다.1. 개념 및 정의메모리 리플레이 버퍼는 에이전트가 환경과 상호작용하며 얻은 상태(state), 행동(action), 보상(reward), 다음 상태(next state)의 튜플을 저장하는 버퍼입니다. 이 저장된 경험을 샘플링하여, 모델이 다양한 상황을 다시 학습하게 함으로써 데이터 효율성 향상, 표본 상관관계 감소, 모델의 안정성 증가라는 효과를 기대할 수 있습니..