Multimodal Reinforcement Learning with Adaptive Verifier for AI Agents

Created by

Haebom

저자

Reuben Tan, Baolin Peng, Zhengyuan Yang, Hao Cheng, Oier Mees, Theodore Zhao, Andrea Tupini, Isar Meijier, Qianhui Wu, Yuncong Yang, Lars Liden, Yu Gu, Sheng Zhang, Xiaodong Liu, Lijuan Wang, Marc Pollefeys, Yong Jae Lee, Jianfeng Gao

💡 개요

본 논문은 멀티모달 강화학습(MMRL) 에이전트가 최종 결과뿐만 아니라 추론 과정 자체에 대한 풍부한 보상을 받을 수 있도록 하는 새로운 보상 에이전트인 Argos를 제안합니다. Argos는 각 샘플에 대해 적응적으로 다양한 평가 함수를 선택하여 최종 응답 정확도, 참조된 개체 및 행동의 시공간적 위치, 추론 과정의 품질을 동시에 평가합니다. 이를 통해 SFT 데이터 큐레이션 및 RL 훈련 전반에 걸쳐 에이전트의 성능을 크게 향상시키고 훈련 데이터의 노이즈 문제와 보상 해킹을 완화합니다.

🔑 시사점 및 한계

•

기존의 최종 결과 기반 보상만으로는 멀티모달 추론 에이전트의 학습에 한계가 있음을 지적하고, 추론 과정에 대한 풍부한 보상의 중요성을 강조합니다.

•

Argos는 다양한 평가 함수를 적응적으로 활용하여 최종 결과뿐만 아니라 시공간적 이해도와 추론 과정의 품질까지 평가함으로써 에이전트의 성능을 획기적으로 향상시킵니다.

•

SFT 후 강화학습만으로는 에이전트가 비정상적인 솔루션으로 수렴하는 경향이 있음을 보여주며, 온라인 검증의 필요성을 입증합니다.

•

Argos는 보상 해킹을 줄이고, 파레토 최적성 개념을 통해 이론적 효과를 뒷받침합니다.

PDF 보기

Made with Slashpage