Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Hybrid Search for Complex Table Question Answering in Securities Report

Created by
  • Haebom
Category
Empty

저자

Daiki Shirafuji, Koji Tanaka, Tatsuhiko Saito

개요

대규모 언어 모델(LLM)이 표 형식 질의 응답(TQA) 분야에서 주목받고 있지만, LLM이 복잡한 표 구조를 제대로 파악하지 못해 전체 표를 긴 텍스트로 입력하면 오답을 내는 경우가 많다. 본 논문에서는 복잡한 표 헤더를 포함하여 수동 식별 없이 TQA를 수행하는 셀 추출 방법을 제안한다. 언어 모델과 TF-IDF를 통합한 하이브리드 검색 메커니즘을 통해 주어진 질문과 개별 셀 간의 유사도를 계산하여 표 헤더를 추정하고, 가장 관련성이 높은 행과 열의 교차점에 있는 셀을 정답으로 선택한다. 또한, 성능 향상을 위해 소규모 질문-헤더 쌍 데이터 세트에 대한 대조 학습을 통해 언어 모델을 훈련시킨다. NTCIR-18 U4 공유 작업의 TQA 데이터 세트에서 제안된 방법을 평가한 결과, 정확도 74.6%를 달성하여 GPT-4o mini(63.9%)와 같은 기존 LLM보다 뛰어난 성능을 보였다.

시사점, 한계점

시사점:
수동 식별 없이 복잡한 표 헤더를 처리하는 TQA 셀 추출 방법 제시.
하이브리드 검색 메커니즘과 대조 학습을 통해 성능 향상.
기존 LLM 대비 우수한 성능 입증.
한계점:
전통적인 인코더 모델을 사용하여 검색을 수행하여, 보다 효율적인 텍스트 검색 모델을 통합하여 성능 개선 필요.
사람 평가 결과와의 격차를 줄이기 위한 추가 연구 필요.
👍