강화 학습과 검증 가능한 보상으로 훈련된 대규모 언어 모델(LLM)은 복잡한 추론 작업에서 강력한 결과를 달성했습니다. 최근 연구는 이 패러다임을 메타 사고 에이전트가 계획을 제안하고 진행 상황을 모니터링하는 반면, 추론 에이전트가 순차적인 대화 턴을 통해 하위 작업을 수행하는 다중 에이전트 설정으로 확장했습니다. 하지만 협업을 저해하고 비효율적인 단일 에이전트 설정으로 붕괴되는, 한 에이전트가 지배하고 다른 에이전트가 기여도가 적은 "게으른 에이전트" 행동이라는 중요한 한계를 발견했습니다. 이 논문은 게으른 행동이 다중 에이전트 추론에서 자연스럽게 발생하는 이유에 대한 이론적 분석을 제공합니다. 또한 인과적 영향을 측정하는 안정적이고 효율적인 방법을 도입하여 이 문제를 완화하는 데 도움을 줍니다. 마지막으로, 협업이 심화됨에 따라 추론 에이전트는 다중 턴 상호 작용에서 길을 잃고 이전의 노이즈 응답에 갇힐 위험이 있습니다. 이를 해결하기 위해 추론 에이전트가 노이즈 출력을 폐기하고, 지침을 통합하며, 필요할 때 추론 프로세스를 다시 시작할 수 있도록 하여 심사숙고를 장려하는 검증 가능한 보상 메커니즘을 제안합니다. 광범위한 실험을 통해 이 프레임워크가 게으른 에이전트 행동을 완화하고 복잡한 추론 작업에 대한 다중 에이전트 프레임워크의 잠재력을 최대한 발휘한다는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
다중 에이전트 추론에서 발생하는 "게으른 에이전트" 행동의 문제점을 지적하고, 이를 완화하기 위한 방법론을 제시했습니다.