Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Calibrating LLMs for Text-to-SQL Parsing by Leveraging Sub-clause Frequencies

Created by
  • Haebom

저자

Terrance Liu, Shuyi Wang, Daniel Preotiuc-Pietro, Yash Chandarana, Chirag Gupta

개요

본 논문은 대규모 언어 모델(LLM) 기반의 text-to-SQL 파싱에서 신뢰할 수 있는 불확실성 척도를 얻는 문제를 다룬다. LLM이 높은 정확도를 보이지만 때때로 예상치 못한 오류를 보이는 경우가 있어, 신뢰할 수 있는 text-to-SQL 시스템을 구축하기 위해서는 LLM으로부터 신뢰할 수 있는 불확실성 측정값을 얻는 것이 중요하다. 본 연구는 LLM 기반 text-to-SQL 파싱의 사후 보정을 위한 벤치마크를 최초로 제시하고, 기존의 보정 방법인 Platt scaling이 원시 모델 출력 확률을 신뢰도 점수로 직접 사용하는 것보다 상당한 개선을 제공함을 보였다. 또한, SQL 쿼리의 구조적 특성을 활용하여 더욱 세분화된 정확성 신호를 제공하는 "하위 절 빈도"(SCF) 점수를 제안하고, 기존 Platt scaling을 확장한 다변량 Platt scaling (MPS)을 사용하여 개별 SCF 점수를 결합하여 정확하고 보정된 전체 점수를 생성하는 방법을 제시한다. 두 개의 text-to-SQL 데이터셋에 대한 실험 결과, MPS와 SCF를 결합한 방법이 기존 Platt scaling보다 보정 및 오류 탐지 성능을 향상시킨다는 것을 보여준다.

시사점, 한계점

시사점:
LLM 기반 text-to-SQL 파싱의 신뢰성 향상을 위한 새로운 보정 방법(MPS와 SCF 결합) 제시
Platt scaling의 효과성을 text-to-SQL 분야에서 실증적으로 확인
SQL 쿼리의 구조적 특성을 활용한 보다 정교한 신뢰도 점수 산출 가능성 제시
보정된 신뢰도 점수를 활용한 오류 탐지 성능 향상
한계점:
제안된 방법의 일반화 성능에 대한 추가 연구 필요
다양한 유형의 LLM 및 text-to-SQL 데이터셋에 대한 실험 필요
SCF 점수 계산의 복잡성 및 계산 비용 고려 필요
실제 응용 시스템에서의 성능 평가 및 안정성 검증 필요
👍