Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On Path to Multimodal Historical Reasoning: HistBench and HistAgent

Created by
  • Haebom

저자

Jiahao Qiu, Fulian Xiao, Yimin Wang, Yuchen Mao, Yijia Chen, Xinzhe Juan, Siran Wang, Xuan Qi, Tongcheng Zhang, Zixin Yao, Jiacheng Guo, Yifu Lu, Charles Argon, Jundi Cui, Daixin Chen, Junran Zhou, Shuyao Zhou, Zhanpeng Zhou, Ling Yang, Shilong Liu, Hongru Wang, Kaixuan Huang, Xun Jiang, Yuming Cao, Yue Chen, Yunfei Chen, Zhengyi Chen, Ruowei Dai, Mengqiu Deng, Jiye Fu, Yunting Gu, Zijie Guan, Zirui Huang, Xiaoyan Ji, Yumeng Jiang, Delong Kong, Haolong Li, Jiaqi Li, Ruipeng Li, Tianze Li, Zhuoran Li, Haixia Lian, Mengyue Lin, Xudong Liu, Jiayi Lu, Jinghan Lu, Wanyu Luo, Ziyue Luo, Zihao Pu, Zhi Qiao, Ruihuan Ren, Liang Wan, Ruixiang Wang, Tianhui Wang, Yang Wang, Zeyu Wang, Zihua Wang, Yujia Wu, Zhaoyi Wu, Hao Xin, Weiao Xing, Ruojun Xiong, Weijie Xu, Yao Shu, Xiao Yao, Xiaorui Yang, Yuchen Yang, Nan Yi, Jiadong Yu, Yangyuxuan Yu, Huiting Zeng, Danni Zhang, Yunjie Zhang, Zhaoyu Zhang, Zhiheng Zhang, Xiaofeng Zheng, Peirong Zhou, Linyan Zhong, Xiaoyin Zong, Ying Zhao, Zhenxin Chen, Lin Ding, Xiaoyu Gao, Bingbing Gong, Yichao Li, Yang Liao, Guang Ma, Tianyuan Ma, Xinrui Sun, Tianyi Wang, Han Xia, Ruobing Xian, Gen Ye, Tengfei Yu, Wentao Zhang, Yuxi Wang, Xi Gao, Mengdi Wang

개요

본 논문은 인문학, 특히 역사 분야에서 대규모 언어 모델(LLM)의 역량을 평가하기 위한 새로운 벤치마크인 HistBench를 제시한다. HistBench는 40명 이상의 전문가가 작성한 414개의 고품질 질문으로 구성되며, 1차 자료 기반 사실 검색부터 원고 및 이미지 해석, 고고학, 언어학 또는 문화사를 포함하는 학제 간 과제까지 다양한 역사적 문제를 다룬다. 29개의 고대 및 현대 언어를 포함하며 광범위한 역사 시대와 세계 지역을 다룬다. LLM 및 기타 에이전트의 HistBench 성능이 저조함을 발견하고, OCR, 번역, 기록 보관소 검색 및 역사적 이미지 이해를 위한 도구를 갖춘 역사 특화 에이전트인 HistAgent를 제시한다. GPT-4o 기반 HistAgent는 HistBench에서 pass@1 27.54%, pass@2 36.47%의 정확도를 달성하여, GPT-4o, DeepSeek-R1, Open Deep Research-smolagents 등 기존 LLM 및 일반 에이전트를 상당히 능가한다.

시사점, 한계점

시사점:
역사 추론을 위한 새로운 벤치마크 HistBench 제시 및 공개.
역사 특화 에이전트 HistAgent의 개발을 통해 LLM의 역사 추론 능력 향상 가능성 제시.
기존 LLM 및 일반 에이전트의 역사 추론 능력의 한계를 명확히 보여줌.
다양한 언어와 역사적 맥락을 포함하는 HistBench를 통해, 보다 포괄적이고 다양한 역사 추론 연구를 가능하게 함.
한계점:
HistAgent의 성능이 여전히 완벽하지 않음 (pass@1 27.54%, pass@2 36.47%). 더 높은 정확도를 달성하기 위한 추가 연구 필요.
HistBench의 질문 난이도 및 다양성에 대한 추가적인 검증 필요.
HistAgent의 특정 도구에 대한 의존성이 높아, 도구의 성능에 따라 결과가 크게 영향 받을 수 있음.
HistBench가 모든 유형의 역사적 추론 과제를 포괄적으로 다루는지에 대한 추가적인 검토가 필요.
👍