Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering

Created by
  • Haebom

저자

Chanyeol Choi, Jihoon Kwon, Alejandro Lopez-Lira, Chaewoon Kim, Minjae Kim, Juneha Hwang, Jaeseon Ha, Hojun Choi, Suyeol Yun, Yongjin Kim, Yongjae Lee

개요

본 논문은 금융 분야에서 다단계 추론을 통한 정보 검색을 평가하기 위한 대규모 벤치마크인 FinAgentBench를 제시한다. 기존의 정보 검색 방법들은 의미적 유사성 뿐 아니라 문서 구조와 특정 도메인 지식에 대한 미세한 추론을 필요로 하기 때문에 정확도가 떨어지는 경우가 많다. FinAgentBench는 S&P-100 상장 기업에 대한 3,429개의 전문가 주석 예시로 구성되며, LLM 에이전트가 (1) 후보 중 가장 관련성이 높은 문서 유형을 식별하고, (2) 선택된 문서 내의 핵심 구절을 정확히 찾아낼 수 있는지 평가한다. 본 논문에서는 두 가지 추론 단계를 명시적으로 분리하여 컨텍스트 제한을 해결하고, 최첨단 모델들을 평가하며, 목표 지향적 미세 조정을 통해 에이전트 검색 성능을 크게 향상시킬 수 있음을 보여준다. FinAgentBench는 금융 분야의 복잡하고 도메인 특정 작업에서 검색 중심의 LLM 동작을 연구하기 위한 기반을 제공한다. 논문 수락 후 데이터셋을 공개적으로 배포하고, 향후 S&P 500 전체 및 그 이상으로 데이터셋을 확장하여 공유할 계획이다.

시사점, 한계점

시사점:
금융 분야에서 다단계 추론을 통한 정보 검색을 평가하기 위한 최초의 대규모 벤치마크인 FinAgentBench 제시.
LLM 에이전트의 문서 유형 식별 및 핵심 구절 추출 능력 평가를 위한 체계적인 프레임워크 제공.
목표 지향적 미세 조정을 통한 LLM 기반 정보 검색 성능 향상 가능성 제시.
금융 분야를 넘어 다른 복잡한 도메인 특정 작업에도 적용 가능한 연구 기반 마련.
한계점:
현재 S&P-100 기업에 대한 데이터만 포함, S&P 500 및 그 이상으로의 확장 필요.
논문 수락 후 데이터셋 공개 예정으로, 현재 데이터셋 접근 불가.
평가된 모델의 종류 및 수가 제한적일 수 있음.
👍