Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Hierarchical Retrieval with Evidence Curation for Open-Domain Financial Question Answering on Standardized Documents

Created by
  • Haebom

저자

Jaeyoung Choe, Jihoon Kim, Woohwan Jung

개요

본 논문은 금융 분야에서 지식 집약적 작업에 탁월한 성능을 보이는 RAG(Retrieval-augmented generation) 기반 LLM의 한계점을 해결하기 위해 HiREC(Hierarchical Retrieval with Evidence Curation) 프레임워크를 제안합니다. 기존 RAG 방식은 유사한 형식의 표준화된 문서(예: SEC 공시)에서 반복되는 틀과 유사한 표 구조로 인해 중복된 검색 결과를 생성하는 문제점을 가지는데, HiREC는 계층적 검색을 통해 유사한 텍스트 간의 혼동을 줄이고, 증거 관리 과정을 통해 무관한 부분을 제거하며, 필요에 따라 추가 정보를 수집하기 위한 보완 질문을 자동 생성합니다. 또한, 145,897개의 SEC 문서와 1,595개의 질문-답변 쌍으로 구성된 대규모 개방형 금융 질의응답 벤치마크인 LOFin을 구축하여 공개합니다.

시사점, 한계점

시사점:
금융 분야 RAG 기반 LLM의 중복 검색 문제를 효과적으로 해결하는 새로운 프레임워크(HiREC) 제시.
계층적 검색 및 증거 관리를 통해 검색 정확도 및 완성도 향상.
대규모 개방형 금융 질의응답 벤치마크(LOFin) 제공을 통한 연구 발전에 기여.
소스 코드 및 데이터 공개를 통한 재현성 및 확장성 확보.
한계점:
LOFin 벤치마크의 규모가 향후 더 확장될 필요가 있음.
HiREC의 성능이 다양한 금융 데이터셋과 질문 유형에 대해 얼마나 일반화되는지 추가적인 실험이 필요함.
자동 생성된 보완 질문의 질과 효율성에 대한 추가적인 분석 필요.
👍