Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ArxivBench: Can LLMs Assist Researchers in Conducting Research?

Created by
  • Haebom

저자

Ning Li, Jingran Zhang, Justin Cui

개요

본 논문은 대규모 언어 모델(LLM)이 arXiv 논문에 대한 질의에 대해 정확한 논문 및 링크를 제공하는 능력을 평가하는 연구입니다. 다양한 독점 및 오픈소스 LLM을 대상으로, arXiv의 8개 주요 분야와 컴퓨터 과학의 5개 하위 분야를 포함하는 arXivBench라는 새로운 벤치마크를 사용하여 평가를 수행했습니다. 연구 결과, LLM의 응답 정확도는 주제에 따라 크게 달라지며, 특히 Claude-3.5-Sonnet이 우수한 성능을 보였고 인공지능 하위 분야에서 대부분의 LLM이 높은 정확도를 달성했습니다. 본 연구는 arXivBench 벤치마크와 데이터셋을 공개하여 LLM의 신뢰성 평가를 위한 표준화된 도구를 제공합니다.

시사점, 한계점

시사점:
LLM의 과학적 응답 신뢰성 평가를 위한 표준화된 벤치마크(arXivBench) 제공.
LLM의 주제별 정확도 차이를 밝힘으로써 LLM 개발 및 활용 방향 제시.
특정 LLM(Claude-3.5-Sonnet)의 우수한 성능 확인 및 향후 연구 방향 제시.
오픈소스 코드 및 데이터셋 공개를 통한 연구의 투명성 및 재현성 확보.
한계점:
평가 대상이 특정 플랫폼(arXiv)의 논문에 국한됨.
고차원 질의에 대한 평가로, 실제 사용 환경의 다양성을 완벽히 반영하지 못할 수 있음.
평가 지표의 한계로 인해 LLM의 응답 품질을 완벽하게 포착하지 못할 수 있음.
특정 LLM의 우수성이 다른 데이터셋이나 질의 유형에서는 동일하게 나타나지 않을 수 있음.
👍