Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains
Created by
Haebom
Category
Empty
저자
Vighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch
개요
본 논문은 대규모 언어 모델(LLM)의 자기 개선을 위한 다중 에이전트 접근 방식을 제안합니다. 기존의 단일 에이전트 자기 개선 방식은 한계에 도달하는 반면, 본 연구는 동일한 기본 모델에서 출발한 여러 LLM이 상호 작용을 통해 생성된 데이터로 독립적으로 미세 조정되는 다중 에이전트 시스템을 제시합니다. 이를 통해 모델 간의 전문화와 다양성을 확보하여 다양한 추론 체계를 유지하고, 단일 에이전트 방식보다 훨씬 더 많은 미세 조정 라운드를 통해 자율적으로 개선될 수 있음을 보여줍니다. 다양한 추론 과제에 대한 정량적 효과도 제시합니다.