본 논문은 대규모 언어 모델(LLM)이 arXiv 논문에 대한 질의에 대해 정확한 논문 및 링크를 제공하는 능력을 평가하는 연구입니다. 다양한 독점 및 오픈소스 LLM을 대상으로, arXiv의 8개 주요 분야와 컴퓨터 과학의 5개 하위 분야를 포함하는 arXivBench라는 새로운 벤치마크를 사용하여 평가를 수행했습니다. 연구 결과, LLM의 응답 정확도는 주제에 따라 크게 달라지며, 특히 Claude-3.5-Sonnet이 우수한 성능을 보였고 인공지능 하위 분야에서 대부분의 LLM이 높은 정확도를 달성했습니다. 본 연구는 arXivBench 벤치마크와 데이터셋을 공개하여 LLM의 신뢰성 평가를 위한 표준화된 도구를 제공합니다.