본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 복잡한 지식 집약적 작업을 지원하기 위해 웹 규모의 과학 문헌을 이해하고 추론하는 능력을 평가하는 PaperArena라는 평가 벤치마크를 제안합니다. 이 벤치마크는 여러 논문 간의 추론과 외부 도구의 도움을 받아야 하는 실제 연구 질문에 대한 에이전트의 성능을 평가하는 데 초점을 맞춥니다. 에이전트는 추론을 통해 여러 논문의 다양한 형식을 통합하고 적절한 도구와 상호 작용하여 근거 있는 답변을 생성해야 합니다. 표준화된 평가를 위해 멀티모달 파싱, 컨텍스트 검색, 프로그래밍 계산과 같은 도구를 제공하는 모듈식 확장 가능한 플랫폼을 제공합니다. 실험 결과에 따르면 가장 발전된 LLM을 사용하는 에이전트 시스템조차 평균 38.78%의 정확도를 보이며, 특히 어려운 하위 집합에서는 18.47%로 떨어져 개선의 여지가 큽니다. 또한, 모든 테스트된 에이전트가 비효율적인 도구 사용을 보이며, 작업 해결에 필요한 것보다 더 많은 도구를 호출하는 경향이 있다는 것을 발견했습니다.