FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering
Created by
Haebom
저자
Siqiao Xue, Xiaojing Li, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei
개요
FAMMA는 금융 분야 다국어 다모달 질의응답(QA)을 위한 오픈소스 벤치마크입니다. 대규모 언어 모델(LLM)의 고급 금융 지식을 요구하는 복잡한 추론 질문에 대한 답변 능력을 평가하기 위해 고안되었습니다. FAMMA는 대학 교재 및 시험에서 추출한 1,945개의 질문으로 구성된 FAMMA-Basic과, 금융 전문가가 생성한 103개의 새로운 질문으로 구성된 FAMMA-LivePro의 두 가지 버전으로 제공됩니다. 질문은 영어, 중국어, 프랑스어로 제공되며, 대부분의 질문은 차트, 다이어그램 또는 표와 같은 비텍스트 데이터를 포함합니다. 실험 결과, FAMMA는 GPT-o1 및 DeepSeek-R1과 같은 추론 모델을 포함한 LLM에 상당한 어려움을 제시하는 것으로 나타났습니다. 또한, DeepSeek-R1의 FAMMA-Basic 데이터에 대한 1,270개의 추론 경로를 정리하고 이 추론 데이터를 사용하여 일련의 오픈소스 Qwen 모델을 미세 조정했습니다. 이러한 추론 경로에 대한 모델 학습은 FAMMA-LivePro의 성능을 크게 향상시킬 수 있음을 발견했습니다. 리더보드, 데이터, 코드 및 학습된 모델은 https://famma-bench.github.io/famma/에서 공개되었습니다.