FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering
Created by
Haebom
저자
Chanyeol Choi, Jihoon Kwon, Alejandro Lopez-Lira, Chaewoon Kim, Minjae Kim, Juneha Hwang, Jaeseon Ha, Hojun Choi, Suyeol Yun, Yongjin Kim, Yongjae Lee
FinAgentBench: 금융 분야에서 다단계 추론을 통한 정보 검색 평가 벤치마크
개요
본 논문은 금융 분야에서 다단계 추론을 통한 정보 검색 능력을 평가하기 위한 대규모 벤치마크인 FinAgentBench를 소개한다. FinAgentBench는 S&P 500 기업 관련 26,000개의 전문가 주석 예제로 구성되며, 대규모 언어 모델(LLM) 에이전트가 (1) 관련 문서 유형을 식별하고 (2) 선택된 문서 내에서 주요 구절을 정확히 찾아낼 수 있는지 평가한다. 이 벤치마크는 금융 분야의 복잡한 작업을 위해 LLM의 검색 중심 행동을 연구하는 데 기반을 제공한다.
시사점, 한계점
•
시사점:
◦
금융 분야에서 다단계 추론을 통한 정보 검색 능력을 평가하는 최초의 대규모 벤치마크 제공.
◦
LLM 에이전트의 (1) 문서 유형 식별 및 (2) 핵심 구절 추출 능력 평가를 위한 프레임워크 제시.