본 논문은 강화학습(RL)을 활용하여 다중모달 대규모 언어 모델(MLLM)의 추론 능력을 향상시키는 최근 연구 동향을 체계적으로 검토한 논문입니다. MLLM은 다양한 모달리티(시각, 음성, 영상 등)를 처리하는 LLM의 확장이지만, 다중모달 입력에 대한 강력한 추론은 여전히 어려운 과제입니다. 본 논문에서는 주요 알고리즘 설계, 보상 메커니즘 혁신, 실제 응용 분야를 포함하여 RL 기반 MLLM 추론의 최근 발전을 다룹니다. 특히 값 모델이 없는 방법과 값 모델 기반 방법이라는 두 가지 주요 RL 패러다임을 조명하고, 추론 경로를 최적화하고 다중 모달 정보를 정렬함으로써 RL이 추론 능력을 향상시키는 방식을 분석합니다. 또한, 벤치마크 데이터셋, 평가 프로토콜 및 현재 한계에 대한 광범위한 개요를 제공하고, 희소 보상, 비효율적인 교차 모달 추론 및 실제 배포 제약과 같은 과제를 해결하기 위한 향후 연구 방향을 제시합니다. 본 논문의 목표는 RL 기반 다중 모달 추론에 대한 포괄적이고 체계적인 안내를 제공하는 것입니다.