FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering
Created by
Haebom
저자
Siqiao Xue, Xiaojing Li, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei
개요
FAMMA는 금융 관련 다국어 다모달 질의응답(QA)을 위한 오픈소스 벤치마크입니다. 대규모 언어 모델(LLM)의 고급 금융 지식을 필요로 하는 복잡한 추론 질문에 대한 응답 능력을 평가하기 위해 고안되었습니다. FAMMA는 대학 교재 및 시험에서 추출한 1,945개의 질문으로 구성된 FAMMA-Basic과, 금융 전문가가 작성한 103개의 새로운 질문으로 구성된 FAMMA-LivePro의 두 가지 버전으로 나뉩니다. FAMMA-LivePro의 정답과 추론 과정은 공개되지 않아 오염 없는 평가를 보장합니다. 질문들은 8개의 주요 금융 하위 분야(예: 기업 금융, 파생상품, 포트폴리오 관리)를 다루며, 영어를 포함하여 중국어, 프랑스어 등 다국어로 제공됩니다. 각 질문에는 차트, 다이어그램 또는 표와 같은 비텍스트 데이터가 포함됩니다. 실험 결과, FAMMA는 GPT-o1 및 DeepSeek-R1과 같은 추론 모델을 포함한 LLM에 상당한 어려움을 제시하는 것으로 나타났습니다. 또한, DeepSeek-R1의 FAMMA-Basic 데이터에 대한 1,270개의 추론 경로를 수집하여 이를 사용하여 일련의 오픈소스 Qwen 모델을 미세 조정했습니다. 이러한 추론 경로를 사용하여 모델을 훈련하면 FAMMA-LivePro에서 성능이 크게 향상되는 것으로 나타났습니다. 데이터, 코드 및 훈련된 모델은 https://famma-bench.github.io/famma/ 에서 공개되었습니다.