Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering

Created by
  • Haebom

저자

Siqiao Xue, Xiaojing Li, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei

개요

FAMMA는 금융 관련 다국어 다모달 질의응답(QA)을 위한 오픈소스 벤치마크입니다. 대규모 언어 모델(LLM)의 고급 금융 지식을 필요로 하는 복잡한 추론 질문에 대한 응답 능력을 평가하기 위해 고안되었습니다. FAMMA는 대학 교재 및 시험에서 추출한 1,945개의 질문으로 구성된 FAMMA-Basic과, 금융 전문가가 작성한 103개의 새로운 질문으로 구성된 FAMMA-LivePro의 두 가지 버전으로 나뉩니다. FAMMA-LivePro의 정답과 추론 과정은 공개되지 않아 오염 없는 평가를 보장합니다. 질문들은 8개의 주요 금융 하위 분야(예: 기업 금융, 파생상품, 포트폴리오 관리)를 다루며, 영어를 포함하여 중국어, 프랑스어 등 다국어로 제공됩니다. 각 질문에는 차트, 다이어그램 또는 표와 같은 비텍스트 데이터가 포함됩니다. 실험 결과, FAMMA는 GPT-o1 및 DeepSeek-R1과 같은 추론 모델을 포함한 LLM에 상당한 어려움을 제시하는 것으로 나타났습니다. 또한, DeepSeek-R1의 FAMMA-Basic 데이터에 대한 1,270개의 추론 경로를 수집하여 이를 사용하여 일련의 오픈소스 Qwen 모델을 미세 조정했습니다. 이러한 추론 경로를 사용하여 모델을 훈련하면 FAMMA-LivePro에서 성능이 크게 향상되는 것으로 나타났습니다. 데이터, 코드 및 훈련된 모델은 https://famma-bench.github.io/famma/ 에서 공개되었습니다.

시사점, 한계점

시사점:
금융 분야에 특화된 다국어 다모달 QA 벤치마크를 제공하여 LLM의 금융 지식 및 추론 능력 평가에 기여합니다.
LLM의 성능 향상을 위한 새로운 훈련 데이터(추론 경로) 제공 가능성을 제시합니다.
오픈소스로 제공되어 연구자들의 접근성을 높이고, 지속적인 발전에 기여할 수 있습니다.
한계점:
현재 제공되는 질문의 수가 제한적일 수 있습니다. (특히, FAMMA-LivePro)
벤치마크에 포함된 금융 하위 분야가 8개로 제한적일 수 있으며, 더 다양한 분야를 포함할 필요가 있습니다.
추론 경로 데이터는 특정 모델(DeepSeek-R1)에 의존적이며, 다른 모델에 대한 일반화 가능성이 제한적일 수 있습니다.
👍