Who Gets the Reward, Who Gets the Blame? Evaluation-Aligned Training Signals for Multi-LLM Agents
Created by
Haebom
Category
Empty
저자
Chih-Hsuan Yang, Tanwi Mallick, Le Chen, Krishnan Raghavan, Azton Wells, Amal Gueroudji, Ian T. Foster, Rajeev Thakur
개요
다중 에이전트 시스템(MAS)에서 대규모 언어 모델(LLM)의 잠재력에도 불구하고, 시스템 수준 평가를 에이전트 수준 및 메시지 수준 학습과 연결하는 원칙적인 방법이 부족하다. 본 논문은 협력적 게임 이론적 귀속과 프로세스 보상 모델링을 통합하여 시스템 평가를 에이전트 크레딧으로 변환한 다음 응답 수준 신호로 변환하는 이론적 프레임워크를 제안한다. Shapley 기반 크레딧 할당은 성공 시 에이전트 간에 결과를 공정하게 할당하고, 메시지별 보상으로 세분화하여 협력을 장려하고 중복 또는 방해 행위를 억제한다. 실패 시, 첫 번째 오류 위치 파악을 통해 수정 시도를 보상하고 유해한 단계를 처벌하는 수리 인식 선호도를 생성한다. 결과적으로 생성된 신호는 경계가 있고 협력적이며, 강화 기반 또는 선호 기반 사후 훈련과 직접 호환된다. 이는 글로벌 평가에서 로컬 감독으로 이어지는 통일되고 감사 가능한 경로를 제공한다. 본 논문은 이론적 토대와 훈련 신호를 제시하며, 경험적 검증은 향후 연구 과제로 남겨둔다.
시사점, 한계점
•
시사점:
◦
시스템 수준 평가를 에이전트 수준 및 메시지 수준 학습에 연결하는 새로운 프레임워크 제시.
◦
Shapley 기반 크레딧 할당 및 프로세스 보상 모델링을 통해 협력 및 문제 해결을 장려하는 신호 생성.