Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning

Created by
  • Haebom

저자

Ziyu Wan, Yunxiang Li, Xiaoyu Wen, Yan Song, Hanjing Wang, Linyi Yang, Mark Schmidt, Jun Wang, Weinan Zhang, Shuyue Hu, Ying Wen

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 메타 사고(meta-thinking)를 통합하는 새로운 프레임워크인 강화된 메타 사고 에이전트(ReMA)를 제시합니다. ReMA는 다중 에이전트 강화 학습(MARL)을 활용하여 상위 수준의 메타 사고 에이전트와 하위 수준의 추론 에이전트로 추론 과정을 분리합니다. 상위 에이전트는 전략적 감독 및 계획을 생성하고, 하위 에이전트는 세부 실행을 담당합니다. 상호 목표를 가진 반복적인 강화 학습을 통해 두 에이전트는 협업을 학습하여 일반화 및 강건성을 향상시킵니다. 단일 턴 실험 결과, ReMA는 복잡한 추론 과제(수학 벤치마크 및 LLM-as-a-Judge 벤치마크 포함)에서 단일 에이전트 강화 학습 기준 모델보다 우수한 성능을 보였습니다. 또한, 턴 레벨 비율과 매개변수 공유를 활용하여 다중 턴 상호 작용 환경으로 ReMA를 확장했습니다. 삭제 연구를 통해 각 에이전트의 역할과 메타 사고 추론 과정이 LLM의 추론 능력 향상에 미치는 영향을 분석했습니다.

시사점, 한계점

시사점:
다중 에이전트 강화 학습을 활용한 메타 사고 프레임워크(ReMA)를 통해 LLM의 추론 능력을 향상시킬 수 있음을 보여줌.
복잡한 추론 과제에서 단일 에이전트 기반 모델보다 우수한 성능을 달성.
다중 턴 상호 작용 환경으로 확장 가능성을 제시.
메타 사고 과정의 각 에이전트 역할에 대한 통찰력 제공.
한계점:
현재까지는 단일 턴 및 다중 턴 실험 결과만 제시되어 장기적인 추론 과제에 대한 성능은 추가 연구가 필요함.
메타 사고 과정의 해석 가능성 및 투명성에 대한 추가적인 연구가 필요함.
다양한 종류의 추론 과제에 대한 일반화 성능 평가가 더 필요함.
👍