본 논문은 다중 에이전트 시스템(MAS)을 위한 대규모 언어 모델(LLM)을 직접 훈련하는 어려움, 특히 복잡한 보상 모델링, 동적인 에이전트 상호 작용, 그리고 까다로운 일반화 요구사항에 초점을 맞춥니다. 따라서 본 논문은 지도 학습 미세 조정(SFT) 및 검증 가능한 보상을 사용한 강화 학습(RLVR)과 같은 사후 훈련 기법이 다중 에이전트 시나리오에 효과적으로 일반화될 수 있는지 조사합니다. 경제적 추론을 테스트베드로 활용하여 수학 및 게임 이론의 견고한 기반, 구조화된 분석적 추론에 대한 요구, 그리고 시장 설계, 자원 할당, 정책 분석과 같은 실제 응용 프로그램과의 관련성을 활용합니다. 2,100개의 고품질 경제적 추론 문제로 구성된 수동으로 큐레이션된 데이터셋으로 사후 훈련된 70억 매개변수의 오픈 소스 LLM인 Recon(Reasoning like an ECONomist)을 소개합니다. 경제적 추론 벤치마크와 다중 에이전트 게임에 대한 포괄적인 평가는 구조화된 추론과 경제적 합리성의 향상을 보여줍니다. 이러한 결과는 추론과 에이전트 정렬을 향상시키기 위한 도메인 정렬 사후 훈련의 가능성을 강조하고, 모델 동작을 형성하는 SFT와 RL의 역할을 밝힙니다. 코드는 https://github.com/MasterZhou1/Recon 에서 확인할 수 있습니다.
시사점: 도메인 정렬 사후 훈련 기법(SFT, RLVR)을 통해 LLM의 다중 에이전트 시스템에서의 추론 능력 및 경제적 합리성 향상 가능성을 보여줌. 경제적 추론 분야에서의 성공적인 적용을 통해 다른 분야로의 확장 가능성 제시. 오픈소스로 공개되어 추가 연구 및 활용 가능.
•
한계점: 사용된 데이터셋이 수동으로 큐레이션된 2,100개의 문제로 제한적임. 더욱 다양하고 대규모의 데이터셋을 활용한 추가 연구 필요. 다양한 유형의 다중 에이전트 게임 및 실제 세계 시나리오에 대한 일반화 성능에 대한 추가적인 검증 필요. RLVR의 구체적인 설계 및 효과에 대한 자세한 설명 부족.