FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information
Created by
Haebom
저자
Yan Wang, Yang Ren, Lingfei Qian, Xueqing Peng, Keyi Wang, Yi Han, Dongji Feng, Xiao-Yang Liu, Jimin Huang, Qianqian Xie
개요
FinTagging은 XBRL 기반 재무 보고서에서 대규모 언어 모델(LLM)의 구조화된 정보 추출 및 의미 정렬 기능을 평가하기 위해 설계된 최초의 전체 범위, 표 인식 XBRL 벤치마크입니다. 기존 벤치마크가 XBRL 태깅을 단순화된 다중 클래스 분류로 간주하고 서술적 텍스트에만 집중하는 것과 달리, FinTagging은 XBRL 태깅 문제를 재무 엔티티 추출(FinNI)과 분류 기반 개념 정렬(FinCL)이라는 두 가지 하위 작업으로 분해합니다. 모델은 비구조화된 텍스트와 구조화된 표 모두에서 사실을 추출하고 10,000개 이상의 US-GAAP 분류 체계와 정렬해야 하므로 현실적이고 세분화된 평가가 가능합니다. 제로샷 설정에서 다양한 LLM을 평가하여 하위 작업과 전체 태깅 정확도에 대한 성능을 체계적으로 분석합니다. 결과는 LLM이 정보 추출에서 강력한 일반화를 보이지만, 특히 밀접하게 관련된 분류 체계 항목의 모호성 해소에 있어서 세분화된 개념 정렬에는 어려움을 겪는다는 것을 보여줍니다. 이러한 결과는 기존 LLM이 XBRL 태깅을 완전히 자동화하는 데 한계가 있음을 강조하고, 정확한 재무 공시의 요구 사항을 충족하기 위해 향상된 의미 추론 및 스키마 인식 모델링이 필요함을 시사합니다. 코드는 GitHub 저장소에서, 데이터는 Hugging Face 저장소에서 이용 가능합니다.