본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 과학 연구 문헌을 이해하고 추론하는 능력을 평가하기 위한 PaperArena라는 새로운 평가 벤치마크를 제안합니다. PaperArena는 여러 논문 간의 정보 통합과 외부 도구 사용을 필요로 하는 실제 연구 질문에 대한 에이전트의 성능을 평가하며, 멀티모달 파싱, 컨텍스트 검색, 프로그래밍 계산과 같은 도구를 제공합니다. 실험 결과, 현재 가장 진보된 에이전트 시스템조차 평균 38.78%의 정확도를 보였으며, 특히 어려운 문제에서는 18.47%로 성능이 저조했습니다. 또한, 모든 에이전트가 비효율적인 도구 사용을 보였다는 점을 밝혀냈습니다.