본 논문은 기존 Actor-critic 방법론인 TD3의 탐색 전략을 개선하기 위해 몬테 카를로 빔 서치(MCBS)를 제안합니다. MCBS는 빔 서치와 몬테 카를로 롤아웃을 결합하여 정책의 출력 주변에서 여러 후보 행동을 생성하고 단기간 롤아웃을 통해 평가하여 더 나은 의사결정을 가능하게 합니다. HalfCheetah-v4, Walker2d-v5, Swimmer-v5 등 다양한 연속 제어 벤치마크에서 TD3, SAC, PPO, A2C 등 기존 방법들보다 향상된 샘플 효율성과 성능을 보였습니다. 특히, 빔 너비와 롤아웃 깊이와 같은 중요한 하이퍼파라미터에 대한 분석과 복잡한 제어 작업을 위한 적응 전략을 제시하며, 다양한 환경에서 TD3, SAC, PPO, A2C보다 높은 수렴 속도를 보이는 것을 확인했습니다 (예: 최대 달성 가능 보상의 90%를 약 200,000 타임스텝 내에 달성).