MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning

작성자

Haebom

카테고리

비어 있음

저자

Chanwoo Park, Seungju Han, Xingzhi Guo, Asuman Ozdaglar, Kaiqing Zhang, Joo-Kyung Kim

개요

본 논문은 여러 대규모 언어 모델(LLM)을 활용한 협업 다중 에이전트 워크플로우 구축의 잠재력을 활용하는 연구에 대해 제시한다. 기존 연구들이 LLM의 고유한 협업 능력에 의존하는 것과 달리, 본 논문에서는 강화 학습을 이용한 다중 에이전트 사후 공동 학습(MAPoRL)이라는 새로운 사후 훈련 패러다임을 제안한다. MAPoRL은 여러 LLM이 독립적으로 응답을 생성한 후, 다중 턴 논의를 통해 최종 답변을 개선한다. MAPoRL 검증자는 답변과 논의 모두에 점수를 매겨 답변의 정확성을 검증하고, 수정적이고 설득력 있는 논의를 장려하는 인센티브를 추가한다. 이 점수는 공동 학습 보상으로 사용되며, 다중 에이전트 강화 학습을 통해 극대화된다. 기존의 LLM 사후 훈련 패러다임과 달리, MAPoRL은 더 나은 일반화를 위해 강화 학습을 사용하여 여러 LLM을 함께 공동 훈련하는 것을 옹호한다. 분석적 통찰력과 함께, 실험 결과는 개별 LLM을 단독으로 훈련하는 것이 효과적인 협업을 유도하기에 불충분함을 보여주고, 반대로 다중 에이전트 공동 훈련이 벤치마크 전반에서 협업 성능을 향상시키고 미지의 영역으로의 일반화를 가능하게 함을 보여준다.