Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FinSage: A Multi-aspect RAG System for Financial Filings Question Answering

Created by
  • Haebom

저자

Xinyu Wang, Jijun Chi, Zhenghan Tai, Tung Sum Thomas Kwok, Muzhi Li, Zhuhong Li, Hailin He, Yuchen Hua, Peng Lu, Suyuchen Wang, Yihong Wu, Jerry Huang, Jingrui Tian, Fengran Mo, Yufei Cui, Ling Zhou

개요

본 논문은 금융 문서 워크플로우에서 복잡한 규정 준수 요구사항을 해결하기 위해 RAG(Retrieval-Augmented Generation) 시스템을 활용하는 금융 부문의 현실적인 문제를 다룹니다. 기존 솔루션은 데이터의 이질성(텍스트, 표, 다이어그램 등)과 규제 표준의 변화하는 특성으로 인해 중요 정보 추출의 정확성이 저하되는 문제점을 가지고 있습니다. 이에 본 논문에서는 다양한 형태의 금융 문서에서 규정 준수 분석을 위한 다중 양상 RAG 프레임워크인 FinSage를 제안합니다. FinSage는 다양한 데이터 형식을 통합하고 청크 수준의 메타데이터 요약을 생성하는 다중 모드 전처리 파이프라인, 쿼리 확장(HyDE) 및 메타데이터 인식 의미 검색이 추가된 다중 경로 스파스-밀집 검색 시스템, 그리고 규정 준수에 중요한 콘텐츠를 우선순위로 정하기 위해 DPO(Direct Preference Optimization)를 통해 미세 조정된 도메인 특화 재순위 지정 모듈의 세 가지 혁신적인 구성 요소를 포함합니다. 실험 결과, FinSage는 전문가가 엄선한 75개의 질문에 대해 92.51%의 인상적인 재현율을 달성했으며, FinanceBench 질의응답 데이터셋에서 기존 최고 성능 방법보다 정확도가 24.06% 향상되었습니다. 또한, FinSage는 온라인 회의에서 금융 질의응답 에이전트로 성공적으로 배포되어 1,200명 이상에게 서비스를 제공했습니다.

시사점, 한계점

시사점:
다양한 형태의 금융 데이터를 처리하고 규정 준수 분석을 위한 효과적인 RAG 프레임워크인 FinSage를 제시.
FinanceBench 데이터셋에서 기존 방법 대비 24.06% 향상된 정확도를 달성하며 성능 우수성을 입증.
실제 온라인 회의 환경에서 1,200명 이상에게 서비스를 제공하며 실용성을 검증.
다중 모드 전처리, 다중 경로 검색, DPO 기반 재순위 지정 모듈 등 혁신적인 구성 요소 제시.
한계점:
FinanceBench 데이터셋 외 다른 데이터셋에 대한 성능 평가 부족.
규제 표준의 지속적인 변화에 대한 FinSage의 적응력에 대한 추가적인 연구 필요.
FinSage의 확장성 및 유지보수 비용에 대한 분석 부족.
특정 금융 영역에 특화되어 다른 도메인으로의 일반화 가능성에 대한 추가 연구 필요.
👍