Who Gets the Reward, Who Gets the Blame? Evaluation-Aligned Training Signals for Multi-LLM Agents
Created by
Haebom
Category
Empty
저자
Chih-Hsuan Yang, Tanwi Mallick, Le Chen, Krishnan Raghavan, Azton Wells, Amal Gueroudji, Ian T. Foster, Rajeev Thakur
개요
다중 에이전트 시스템(MAS)에서 대규모 언어 모델(LLM)의 복잡한 작업 수행 가능성을 높이기 위해 시스템 수준 평가와 에이전트/메시지 수준 학습을 연결하는 새로운 이론적 프레임워크를 제안한다. 협력적 게임 이론적 귀인과 프로세스 보상 모델링을 통합하여 시스템 평가를 에이전트 신용으로, 그리고 응답 수준 신호로 변환한다. 이 방법은 샤플리(Shapley) 기반 귀인을 통해 공정한 결과를 할당하고, 메시지별 보상으로 협력을 장려하며, 오류 발생 시 수정 시도를 보상하고 유해한 단계를 처벌하는 수리 인식 선호도를 제공한다. 이 신호들은 경계가 있고 협력적이며, 강화 또는 선호 기반의 사후 훈련과 직접적으로 호환된다.
시사점, 한계점
•
시사점:
◦
시스템 수준 평가를 에이전트 신용으로 변환하여, LLM 기반 MAS 학습에 대한 새로운 이론적 기반을 제시한다.
◦
샤플리 기반 귀인을 사용하여, 에이전트 간의 공정한 결과 할당을 가능하게 한다.
◦
메시지별 보상과 수리 인식 선호도를 통해, 협력과 오류 수정에 대한 학습을 장려한다.
◦
강화 또는 선호 기반 사후 훈련과 호환되는, 통합되고 감사 가능한 경로를 제공한다.
•
한계점:
◦
이론적 프레임워크 제시에 초점을 맞추어, 실제 적용 및 실험적 검증은 향후 연구 과제로 남겨두었다.