Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Synthetic Data-Driven Prompt Tuning for Financial QA over Tables and Documents

Created by
  • Haebom
Category
Empty

저자

Yaoning Yu, Kaimin Chang, Ye Yu, Kai Wei, Haojing Luo, Haohan Wang

개요

본 논문은 금융 문서 이해 및 수치 추론을 돕기 위해 대규모 언어 모델(LLM)을 활용하는 새로운 프롬프트 학습 프레임워크를 제시합니다. 특히, 고정된 데이터셋에 의존하거나 수동으로 레이블링된 데이터를 사용하는 기존 프롬프트 튜닝 방식의 한계를 극복하고자, 데이터 증강 최적화를 기반으로 하는 자체 개선형 프롬프트 프레임워크를 개발했습니다. 이 프레임워크는 합성 데이터를 생성하고, 검증하고, 프롬프트를 최적화하는 과정을 반복하며, 외부 레이블 없이 프롬프트 정확도를 향상시킵니다. DocMath-Eval 벤치마크 평가 결과, 제안된 시스템은 기존 프롬프트 방식보다 높은 정확도와 견고성을 보였습니다.

시사점, 한계점

시사점:
금융 문서 이해 및 수치 추론을 위한 LLM의 프롬프트 학습에 자체 개선 방식을 도입하여, 외부 레이블 없이도 프롬프트 성능을 향상시킬 수 있음을 입증했습니다.
합성 데이터 생성을 활용하여 프롬프트의 강건성을 높이고, 새로운 질문 유형 및 문서 구조에 대한 적응성을 향상시켰습니다.
DocMath-Eval 벤치마크를 통해 제안된 시스템의 우수성을 객관적으로 평가했습니다.
한계점:
합성 데이터 생성의 품질에 따라 프레임워크의 성능이 제한될 수 있습니다.
금융 분야 외 다른 분야로의 일반화 가능성에 대한 추가 연구가 필요합니다.
실제 문서 데이터에 대한 성능 평가 및 분석이 부족할 수 있습니다.
👍