# Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps

### 저자

Tanmay Asthana, Aman Saksena, Divyansh Sahu

### 💡 개요

이 논문은 심층 연구 에이전트(DRA)의 실제 업무 수행 능력을 평가하기 위한 새로운 벤치마크를 제안합니다. 기존 벤치마크가 단순한 사실 검색 능력만 측정하는 반면, 이 벤치마크는 복잡한 문서 종합 및 구조화된 결과물 생성을 요구하는 관리 컨설턴트 업무를 모방합니다. 세 가지 선도적인 DRA(Claude Opus 4.6, OpenAI o3-deep-research, Google Gemini 3.1 Pro deep-research)를 평가한 결과, 엄격한 기준 하에서 이들 에이전트의 수용률은 전반적으로 매우 낮았습니다.

### 🔑 시사점 및 한계

- **DRA의 현실 업무 수행 능력에 대한 엄격한 평가 기준 제시:** 복잡한 분석 및 구조화된 결과물 생성을 요구하는 실제 컨설팅 업무 환경에서의 DRA 성능을 측정할 수 있는 새로운 벤치마크를 개발하여, 기존 평가 방식의 한계를 극복했습니다.

- **DRA별 강점 및 약점 분석:** Claude는 파일 관련 작업에서 신뢰도가 높으나 환각 현상이 두드러졌고, o3는 추론 능력이 우수했으나 누락되는 섹션과 산술 오류가 발생했습니다. Gemini는 높은 수용률과 함께 가장 많은 0점 셀을 기록하는 양극화된 성능을 보였습니다.

- **DRA의 실제 적용을 위한 추가적인 발전 필요:** 현재 DRA는 복잡하고 의사 결정이 필요한 업무를 수행하기에는 아직 부족하며, 환각 현상, 논리 오류, 누락 등 해결해야 할 과제가 많습니다.

[PDF 보기](https://arxiv.org/pdf/2605.17554)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).