본 논문은 여러 대규모 언어 모델(LLM)을 활용한 협업 다중 에이전트 워크플로우 구축의 잠재력을 보여줍니다. 기존 연구들은 주로 LLM의 기본 협업 능력에 의존하는 반면, 본 논문은 강화 학습을 이용한 다중 에이전트 사후 공동 학습(MAPoRL)이라는 새로운 사후 학습 패러다임을 제시합니다. MAPoRL은 여러 LLM이 독립적으로 응답을 생성한 후, 다중 턴 논의를 통해 최종 답변을 협업적으로 개선합니다. MAPoRL 검증자는 답변과 논의 모두에 점수를 매겨 답변의 정확성을 검증하고, 수정적이고 설득력 있는 논의를 장려하는 인센티브를 추가합니다. 이 점수는 공동 학습 보상으로 사용되며, 다중 에이전트 강화 학습을 통해 최대화됩니다. 기존의 LLM 사후 학습 패러다임과 달리, MAPoRL은 더 나은 일반화를 위해 강화 학습을 사용하여 여러 LLM을 함께 공동 학습하는 것을 주장합니다. 실험 결과, 개별 LLM을 단독으로 학습하는 것은 효과적인 협업을 유도하기에 불충분하며, 다중 에이전트 공동 학습이 벤치마크 전반에서 협업 성능을 향상시키고 미지의 영역으로의 일반화를 가능하게 함을 보여줍니다.