Sign In

MASPRM: Multi-Agent System Process Reward Model

Created by
  • Haebom
Category
Empty

저자

Milad Yazdani, Mahdi Mostajabdaveh, Zirui Zhou, Ying Xiong

개요

Multi-Agent Systems (MAS)의 실제 배포를 위해, 추론 시 검색을 안내하고 품질을 향상시키기 위해 선택적으로 계산 자원을 사용하는 방법을 제시합니다. Multi-Agent System Process Reward Model (MASPRM)은 부분적인 에이전트 간 대화 내용에 대해 에이전트별, 액션별 가치를 할당하며, 추론 시 컨트롤러 역할을 합니다. MASPRM은 단계별 사람의 주석 없이 multi-agent Monte Carlo Tree Search (MCTS) 롤아웃으로부터 학습되며, 반환값을 로컬 목표로 전파합니다. 추론 시 MASPRM은 단계별 빔 서치와 MCTS를 안내하여, 유망한 분기에 계산 자원을 집중하고 조기에 가지치기를 수행합니다. GSM8K 및 MATH에서, 최종 답변에 적용된 outcome reward model (ORM)을 사용한 MASPRM 기반 디코딩은 단일 straight-through MAS 패스보다 exact match (EM) 점수를 각각 +30.7 및 +22.9 포인트 향상시켰습니다. GSM8K에서 훈련된 MASPRM은 재훈련 없이 MATH로 zero-shot 전이가 가능하며, 동일한 예산에서 8.4 EM 포인트를 추가합니다. MASPRM은 에이전트별 진행 상황을 추정하는 플러그인 가치 모델이며, verifier-style 디코더를 보완하여, 보다 신뢰할 수 있고 계산을 고려하는 multi-agent 추론을 가능하게 합니다.

시사점, 한계점

시사점:
MASPRM은 MAS의 추론 시 성능을 향상시키는 새로운 방법론을 제시합니다.
MASPRM은 MCTS 롤아웃에서 학습되어, 단계별 사람의 주석 없이도 작동합니다.
GSM8K와 MATH 문제에서 유의미한 성능 향상을 보였습니다.
zero-shot 전이 학습이 가능합니다.
verifier-style 디코더와 통합되어 더 강력한 multi-agent 추론을 가능하게 합니다.
한계점:
논문 자체에서 한계점이 명시적으로 언급되지 않았습니다.
(제시된 정보만으로는) MASPRM의 일반화 능력과 다양한 문제 유형에 대한 적용 가능성을 평가하기 어려울 수 있습니다.
MASPRM의 계산 비용 효율성에 대한 추가적인 분석이 필요할 수 있습니다.
👍