본 논문에서는 금융 분야의 오디오 데이터(예: 실적 발표 컨퍼런스 콜, CEO 연설)를 분석하고 투자 결정에 활용하기 위한 목적으로, 금융 시나리오에서 AudioLLM(오디오 대규모 언어 모델)을 평가하는 최초의 벤치마크인 FinAudio를 제시합니다. FinAudio는 짧은 금융 오디오에 대한 ASR, 긴 금융 오디오에 대한 ASR, 긴 금융 오디오의 요약이라는 세 가지 과제를 정의하고, 이를 평가하기 위한 두 개의 짧은 오디오 데이터셋, 두 개의 긴 오디오 데이터셋, 그리고 금융 오디오 요약을 위한 새로운 데이터셋을 구성합니다. 7개의 기존 AudioLLM을 FinAudio로 평가하여 기존 모델의 한계를 밝히고 향후 개선 방향을 제시합니다. 모든 데이터셋과 코드는 공개될 예정입니다.