Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Exploring the Robustness of Language Models for Tabular Question Answering via Attention Analysis

Created by
  • Haebom

저자

Kushal Raj Bhandari, Sixue Xing, Soham Dan, Jianxi Gao

개요

본 논문은 다양한 비구조적 텍스트 이해 작업에서 뛰어난 성능을 보이는 대규모 언어 모델(LLM)이 특별한 훈련 없이도 표(구조적) 이해 작업을 수행할 수 있다는 사실에 기반하여 연구를 진행했습니다. 연구에서는 다양한 증강 및 섭동 하에 Wikipedia 기반 WTQ, 금융 TAT-QA, 과학 SCITAB 등 다양한 도메인에서 LLM을 테스트하여 문맥 내 학습(ICL), 모델 규모, 지시어 튜닝, 도메인 편향이 표 형식 질의응답(TQA) 강건성에 미치는 영향을 조사했습니다. 지시어 튜닝과 더 크고 최신의 LLM이 더 강력하고 견고한 TQA 성능을 제공하지만, 특히 WTQ에서 데이터 오염 및 신뢰성 문제는 해결되지 않은 채 남아있습니다. 심층적인 어텐션 분석을 통해 섭동으로 인한 어텐션 분산 변화와 성능 저하 사이에 강한 상관관계가 있음을 밝혔으며, 민감도는 모델의 중간 레이어에서 최고조에 달했습니다. 표 데이터에 대한 LLM의 투명성, 일반화 및 실제 세계 신뢰성을 향상시키기 위해 구조 인식 자기 어텐션 메커니즘과 도메인 적응형 처리 기술 개발의 필요성을 강조합니다.

시사점, 한계점

시사점:
지시어 튜닝과 더 크고 최신의 LLM이 표 형식 질의응답(TQA) 성능 향상 및 강건성 증대에 기여함.
섭동으로 인한 어텐션 분산 변화와 성능 저하 간의 강한 상관관계를 밝힘. 모델 중간 레이어에서 민감도가 가장 높음.
구조 인식 자기 어텐션 메커니즘 및 도메인 적응형 처리 기술 개발의 필요성 제시.
한계점:
WTQ를 포함한 일부 데이터셋에서 데이터 오염 및 신뢰성 문제가 여전히 존재.
더욱 향상된 해석 가능한 방법론을 통한 LLM 신뢰성 향상 필요성 제기.
👍