Sign In

PaperArena: An Evaluation Benchmark for Tool-Augmented Agentic Reasoning on Scientific Literature

Created by
  • Haebom
Category
Empty

저자

Daoyu Wang, Mingyue Cheng, Qi Liu, Shuo Yu, Zirui Liu, Ze Guo

개요

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 복잡한 지식 집약적 작업을 지원하기 위해 웹 규모의 과학 문헌을 이해하고 추론하는 능력을 평가하는 PaperArena라는 평가 벤치마크를 제안합니다. 이 벤치마크는 여러 논문 간의 추론과 외부 도구의 도움을 받아야 하는 실제 연구 질문에 대한 에이전트의 성능을 평가하는 데 초점을 맞춥니다. 에이전트는 추론을 통해 여러 논문의 다양한 형식을 통합하고 적절한 도구와 상호 작용하여 근거 있는 답변을 생성해야 합니다. 표준화된 평가를 위해 멀티모달 파싱, 컨텍스트 검색, 프로그래밍 계산과 같은 도구를 제공하는 모듈식 확장 가능한 플랫폼을 제공합니다. 실험 결과에 따르면 가장 발전된 LLM을 사용하는 에이전트 시스템조차 평균 38.78%의 정확도를 보이며, 특히 어려운 하위 집합에서는 18.47%로 떨어져 개선의 여지가 큽니다. 또한, 모든 테스트된 에이전트가 비효율적인 도구 사용을 보이며, 작업 해결에 필요한 것보다 더 많은 도구를 호출하는 경향이 있다는 것을 발견했습니다.

시사점, 한계점

시사점:
PaperArena는 여러 논문 간의 추론 및 도구 사용을 필요로 하는 실제 연구 질문을 해결하는 에이전트의 평가를 위한 벤치마크를 제공합니다.
실험 결과는 현재 에이전트의 성능이 낮고 개선의 여지가 많음을 보여줍니다.
에이전트의 비효율적인 도구 사용 패턴을 발견하여 개선의 방향성을 제시합니다.
한계점:
해당 논문 자체에 대한 한계점은 제시되어 있지 않음. (제공된 정보 내에서는 알 수 없음)
👍