FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering
Created by
Haebom
저자
Chanyeol Choi, Jihoon Kwon, Alejandro Lopez-Lira, Chaewoon Kim, Minjae Kim, Juneha Hwang, Jaeseon Ha, Hojun Choi, Suyeol Yun, Yongjin Kim, Yongjae Lee
개요
본 논문은 금융 분야에서 다단계 추론을 통한 정보 검색을 평가하기 위한 대규모 벤치마크인 FinAgentBench를 제시한다. 기존의 정보 검색 방법들은 의미적 유사성 뿐 아니라 문서 구조와 특정 도메인 지식에 대한 미세한 추론을 필요로 하기 때문에 정확도가 떨어지는 경우가 많다. FinAgentBench는 S&P-100 상장 기업에 대한 3,429개의 전문가 주석 예시로 구성되며, LLM 에이전트가 (1) 후보 중 가장 관련성이 높은 문서 유형을 식별하고, (2) 선택된 문서 내의 핵심 구절을 정확히 찾아낼 수 있는지 평가한다. 본 논문에서는 두 가지 추론 단계를 명시적으로 분리하여 컨텍스트 제한을 해결하고, 최첨단 모델들을 평가하며, 목표 지향적 미세 조정을 통해 에이전트 검색 성능을 크게 향상시킬 수 있음을 보여준다. FinAgentBench는 금융 분야의 복잡하고 도메인 특정 작업에서 검색 중심의 LLM 동작을 연구하기 위한 기반을 제공한다. 논문 수락 후 데이터셋을 공개적으로 배포하고, 향후 S&P 500 전체 및 그 이상으로 데이터셋을 확장하여 공유할 계획이다.
시사점, 한계점
•
시사점:
◦
금융 분야에서 다단계 추론을 통한 정보 검색을 평가하기 위한 최초의 대규모 벤치마크인 FinAgentBench 제시.
◦
LLM 에이전트의 문서 유형 식별 및 핵심 구절 추출 능력 평가를 위한 체계적인 프레임워크 제공.
◦
목표 지향적 미세 조정을 통한 LLM 기반 정보 검색 성능 향상 가능성 제시.
◦
금융 분야를 넘어 다른 복잡한 도메인 특정 작업에도 적용 가능한 연구 기반 마련.
•
한계점:
◦
현재 S&P-100 기업에 대한 데이터만 포함, S&P 500 및 그 이상으로의 확장 필요.