ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning
Created by
Haebom
저자
Ziyu Wan, Yunxiang Li, Xiaoyu Wen, Yan Song, Hanjing Wang, Linyi Yang, Mark Schmidt, Jun Wang, Weinan Zhang, Shuyue Hu, Ying Wen
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 메타 사고(meta-thinking)를 통합하는 새로운 프레임워크인 강화된 메타 사고 에이전트(ReMA)를 제시합니다. ReMA는 다중 에이전트 강화 학습(MARL)을 활용하여 상위 수준의 메타 사고 에이전트와 하위 수준의 추론 에이전트로 추론 과정을 분리합니다. 상위 에이전트는 전략적 감독 및 계획을 생성하고, 하위 에이전트는 세부 실행을 담당합니다. 상호 목표를 가진 반복적인 강화 학습을 통해 두 에이전트는 협업을 학습하여 일반화 및 강건성을 향상시킵니다. 단일 턴 실험 결과, ReMA는 복잡한 추론 과제(수학 벤치마크 및 LLM-as-a-Judge 벤치마크 포함)에서 단일 에이전트 강화 학습 기준 모델보다 우수한 성능을 보였습니다. 또한, 턴 레벨 비율과 매개변수 공유를 활용하여 다중 턴 상호 작용 환경으로 ReMA를 확장했습니다. 삭제 연구를 통해 각 에이전트의 역할과 메타 사고 추론 과정이 LLM의 추론 능력 향상에 미치는 영향을 분석했습니다.
시사점, 한계점
•
시사점:
◦
다중 에이전트 강화 학습을 활용한 메타 사고 프레임워크(ReMA)를 통해 LLM의 추론 능력을 향상시킬 수 있음을 보여줌.
◦
복잡한 추론 과제에서 단일 에이전트 기반 모델보다 우수한 성능을 달성.
◦
다중 턴 상호 작용 환경으로 확장 가능성을 제시.
◦
메타 사고 과정의 각 에이전트 역할에 대한 통찰력 제공.
•
한계점:
◦
현재까지는 단일 턴 및 다중 턴 실험 결과만 제시되어 장기적인 추론 과제에 대한 성능은 추가 연구가 필요함.