ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents
Created by
Haebom
Category
Empty
저자
Manasi Sharma, Chen Bo Calvin Zhang, Chaithanya Bandi, Clinton Wang, Ankit Aich, Huy Nghiem, Tahseen Rabbani, Ye Htet, Brian Jang, Sumana Basu, Aishwarya Balwani, Denis Peskoff, Marcos Ayestaran, Sean M. Hendryx, Brad Kenstler, Bing Liu
개요
Deep Research (DR)은 LLM을 활용하여 개방형 질의에 답하는 새로운 에이전트 어플리케이션입니다. 다단계 추론, 다중 문서 통합, 증거 기반의 장문 답변 생성을 포함한 여러 기능을 통합해야 합니다. DR의 평가는 응답이 길고 다양하며, 많은 유효한 솔루션을 허용하고, 동적 정보 소스에 의존하기 때문에 어렵습니다. 본 논문에서는 사실적 근거, 추론 타당성 및 명확성을 평가하기 위해 2,800시간 이상의 인적 노력을 투입하여 구축된 표준화된 DR 벤치마크인 ResearchRubrics를 소개합니다. ResearchRubrics는 현실적인, 다양한 도메인의 프롬프트와 2,500개 이상의 전문가가 작성한 세분화된 루브릭을 페어링합니다. 또한 개념적 폭, 논리적 중첩, 탐색의 세 가지 축을 따라 DR 작업을 분류하기 위한 새로운 복잡성 프레임워크를 제안합니다. DR 에이전트의 루브릭 준수 여부를 측정하는 인간 및 모델 기반 평가 프로토콜을 개발했습니다. Gemini 및 OpenAI의 DR과 같은 최첨단 DR 시스템을 평가한 결과, 68% 미만의 평균 루브릭 준수를 보였으며, 이는 암묵적 맥락의 누락 및 검색된 정보에 대한 부적절한 추론 때문입니다. 본 연구 결과는 DR 능력의 강력하고 확장 가능한 평가의 필요성을 강조하며, 이를 위해 정당한 연구 보조자 개발을 촉진하기 위해 ResearchRubrics(모든 프롬프트, 루브릭 및 평가 코드 포함)를 공개합니다.
시사점, 한계점
•
DR 시스템 평가를 위한 표준화된 벤치마크인 ResearchRubrics 개발.
•
DR 작업의 복잡성을 분류하는 새로운 프레임워크 제안.
•
DR 에이전트의 루브릭 준수 여부를 평가하는 인간 및 모델 기반 평가 프로토콜 개발.
•
선도적인 DR 시스템조차도 루브릭 준수율이 낮음을 확인, 암묵적 맥락 이해 및 추론 능력 개선 필요성을 시사.