본 논문은 대규모 언어 모델(LLM)이 금융 분야에서 효과적으로 사용되기 위해 현실적인 과제와 데이터를 연구하는 데 초점을 맞추고 있다. 금융 전문가들은 수백 페이지에 달하는 문서를 다루지만, 기존 금융 연구 데이터셋은 짧은 발췌본만을 다루는 한계를 지닌다. 이러한 문제를 해결하기 위해, 저자들은 긴 문서 기반의 금융 QA 과제인 DocFinQA를 제안한다. FinQA 데이터셋의 7,437개 질문에 전체 문서 컨텍스트를 추가하여 평균 컨텍스트 길이를 FinQA의 700단어 미만에서 DocFinQA의 123,000단어로 확장했다. 검색 기반 QA 파이프라인과 긴 컨텍스트 언어 모델에 대한 광범위한 실험을 수행한 결과, DocFinQA는 최첨단 시스템에게도 상당한 도전 과제임을 확인했다. 또한 DocFinQA에서 가장 긴 문서에 대한 사례 연구를 통해 모델이 특히 어려움을 겪는다는 사실을 발견했다. 이 연구는 유전자 서열 분석 및 법적 문서 계약 분석과 같이 특정성과 장거리 컨텍스트가 중요한 애플리케이션에 광범위한 영향을 미칠 수 있다.