FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering
Created by
Haebom
저자
Chanyeol Choi, Jihoon Kwon, Alejandro Lopez-Lira, Chaewoon Kim, Minjae Kim, Juneha Hwang, Jaeseon Ha, Hojun Choi, Suyeol Yun, Yongjin Kim, Yongjae Lee
개요
본 논문은 금융 분야에서 다단계 추론을 통한 정보 검색을 평가하기 위한 대규모 벤치마크인 FinAgentBench를 제시합니다. 기존의 정보 검색 방법들은 의미적 유사성뿐 아니라 문서 구조와 특정 도메인 지식에 대한 세밀한 추론을 필요로 하지만 정확도가 떨어지는 경우가 많습니다. FinAgentBench는 S&P-100 상장 기업에 대한 3,429개의 전문가 주석 예시로 구성되어 있으며, LLM 에이전트가 (1) 후보 중 가장 관련성이 높은 문서 유형을 식별하고, (2) 선택된 문서 내의 주요 구절을 정확히 찾아낼 수 있는지 평가합니다. 두 추론 단계를 명확히 분리하여 맥락 제한을 해결하고, 금융 분야에서 검색 중심의 LLM 동작을 정량적으로 이해할 수 있는 기반을 제공합니다. 최첨단 모델들을 평가하고, 목표 지향적 미세 조정을 통해 에이전트 검색 성능을 크게 향상시킬 수 있음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
금융 분야에서 다단계 추론 기반 정보 검색을 위한 최초의 대규모 벤치마크 FinAgentBench 제시.
◦
LLM 에이전트의 문서 유형 식별 및 주요 구절 추출 능력 평가.
◦
맥락 제한 문제 해결을 위한 두 추론 단계 분리 설계.
◦
목표 지향적 미세 조정을 통한 성능 향상 가능성 제시.
◦
복잡한 도메인 특정 작업에서 검색 중심 LLM 동작 연구 기반 제공.
•
한계점:
◦
FinAgentBench는 S&P-100 상장 기업에 한정되어 있어 일반화 가능성에 대한 추가 연구 필요.
◦
평가는 특정 유형의 LLM 에이전트에 국한될 수 있으며, 다른 유형의 에이전트나 접근 방식에 대한 일반화 가능성 검토 필요.