Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PaperArena: An Evaluation Benchmark for Tool-Augmented Agentic Reasoning on Scientific Literature

Created by
  • Haebom
Category
Empty

저자

Daoyu Wang, Mingyue Cheng, Shuo Yu, Zirui Liu, Ze Guo, Qi Liu

개요

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 과학 연구 문헌을 이해하고 추론하는 능력을 평가하기 위한 PaperArena라는 새로운 평가 벤치마크를 제안합니다. PaperArena는 여러 논문 간의 정보 통합과 외부 도구 사용을 필요로 하는 실제 연구 질문에 대한 에이전트의 성능을 평가하며, 멀티모달 파싱, 컨텍스트 검색, 프로그래밍 계산과 같은 도구를 제공합니다. 실험 결과, 현재 가장 진보된 에이전트 시스템조차 평균 38.78%의 정확도를 보였으며, 특히 어려운 문제에서는 18.47%로 성능이 저조했습니다. 또한, 모든 에이전트가 비효율적인 도구 사용을 보였다는 점을 밝혀냈습니다.

시사점, 한계점

시사점:
PaperArena는 다중 논문 간 추론 및 멀티 도구 활용 능력을 평가하는 새로운 벤치마크를 제공하여, 실제 연구 환경에서 LLM 에이전트의 성능 평가를 가능하게 합니다.
실험 결과는 현재 에이전트 시스템이 아직 개선의 여지가 많음을 시사합니다.
에이전트의 비효율적인 도구 사용 패턴을 발견하여 개선 방향을 제시합니다.
한계점:
논문 자체의 한계점은 명시적으로 언급되지 않았습니다.
PaperArena의 구체적인 문제 유형이나 난이도에 대한 자세한 정보는 논문 요약에서 제한적으로 제공됩니다.
👍