Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PRInTS: Reward Modeling for Long-Horizon Information Seeking

Created by
  • Haebom
Category
Empty

저자

Jaewoo Lee, Archiki Prasad, Justin Chih-Yao Chen, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal

개요

AI 에이전트의 핵심 능력인 정보 탐색은 긴 여정에 걸쳐 도구로 생성된 정보를 수집하고 추론해야 하지만, 언어 모델 기반 에이전트에게 여전히 어렵다. 기존의 process reward model (PRM)은 테스트 시 후보 단계를 순위 매기는 방식으로 에이전트를 안내하지만, 짧은 추론과 이진 판단에 맞춰 설계되어 도구 상호 작용, 도구 출력에 대한 추론과 같은 정보 탐색 단계의 더 풍부한 차원을 포착하거나, 긴 호라이즌 작업에서 빠르게 증가하는 컨텍스트를 처리하지 못한다. 이러한 한계를 해결하기 위해, PRInTS를 제안한다. PRInTS는 (1) 여러 단계 품질 차원(예: 도구 출력 해석, 도구 호출 정보)에 걸쳐 PRM의 추론을 기반으로 한 밀집 점수 매기기와 (2) 단계 평가를 위해 필수 정보를 보존하면서 증가하는 컨텍스트를 압축하는 궤적 요약을 통해 훈련된 생성적 PRM이다. FRAMES, GAIA (레벨 1-3), WebWalkerQA (쉬움-어려움) 벤치마크에 대한 광범위한 평가를 통해, PRInTS를 사용한 best-of-n 샘플링이 오픈 소스 모델과 전문 에이전트의 정보 탐색 능력을 향상시키고, 더 작은 백본 에이전트로 최첨단 모델의 성능에 필적하거나 능가하며, 다른 강력한 보상 모델링 기준선을 능가함을 밝혀냈다.

시사점, 한계점

시사점:
PRInTS는 정보 탐색 작업을 위한 에이전트의 성능을 향상시킨다.
오픈 소스 모델과 전문 에이전트 모두에 적용 가능하다.
기존 모델 대비 더 작은 크기로도 경쟁력 있는 성능을 보인다.
한계점:
논문 내에서 구체적인 한계점이 명시되지 않음. (논문 요약에서 확인 불가)
👍