Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering

Created by
  • Haebom

저자

Chanyeol Choi, Jihoon Kwon, Alejandro Lopez-Lira, Chaewoon Kim, Minjae Kim, Juneha Hwang, Jaeseon Ha, Hojun Choi, Suyeol Yun, Yongjin Kim, Yongjae Lee

FinAgentBench: 금융 분야에서 다단계 추론을 통한 정보 검색 평가 벤치마크

개요

본 논문은 금융 분야에서 다단계 추론을 통한 정보 검색 능력을 평가하기 위한 대규모 벤치마크인 FinAgentBench를 소개한다. FinAgentBench는 S&P 500 기업 관련 26,000개의 전문가 주석 예제로 구성되며, 대규모 언어 모델(LLM) 에이전트가 (1) 관련 문서 유형을 식별하고 (2) 선택된 문서 내에서 주요 구절을 정확히 찾아낼 수 있는지 평가한다. 이 벤치마크는 금융 분야의 복잡한 작업을 위해 LLM의 검색 중심 행동을 연구하는 데 기반을 제공한다.

시사점, 한계점

시사점:
금융 분야에서 다단계 추론을 통한 정보 검색 능력을 평가하는 최초의 대규모 벤치마크 제공.
LLM 에이전트의 (1) 문서 유형 식별 및 (2) 핵심 구절 추출 능력 평가를 위한 프레임워크 제시.
금융 분야에서 검색 중심 LLM의 동작에 대한 정량적 분석을 제공.
특정 파인튜닝을 통해 에이전트 검색 성능을 크게 향상시킬 수 있음을 입증.
한계점:
논문에서 구체적인 한계점은 명시되어 있지 않음. (추후 논문 내용을 통해 확인 필요)
👍