Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond SELECT: A Comprehensive Taxonomy-Guided Benchmark for Real-World Text-to-SQL Translation

Created by
  • Haebom
Category
Empty

저자

Hao Wang, Yuanfeng Song, Xiaoming Yin, Xing Chen

텍스트-SQL 데이터셋의 분류, 분석 및 합성

개요

본 논문은 텍스트-SQL 모델 훈련 및 평가를 위한 데이터셋의 한계를 지적하고, 이를 해결하기 위해 새로운 분류 체계를 제안합니다. 핵심 의도, 문장 유형, 구문 구조, 주요 동작 등을 포함하는 이 분류 체계를 사용하여 기존 데이터셋의 커버리지 및 다양성을 평가하고, 이를 기반으로 대규모 언어 모델(LLM)을 활용하여 새로운 데이터셋 SQL-Synth를 생성하는 파이프라인을 제시합니다. 실험 결과, 제안된 SQL-Synth는 기존 데이터셋보다 더 넓은 범위와 복잡성을 보이며, LLM의 성능을 향상시키는 데 기여할 수 있음을 확인합니다.

시사점, 한계점

시사점:
텍스트-SQL 데이터셋의 포괄적인 분석을 위한 새로운 분류 체계 제시
기존 데이터셋의 한계점을 파악하고, 보다 다양한 데이터셋 생성
LLM 기반의 데이터셋 합성 파이프라인 제안
제안된 분류 체계가 데이터셋 분석 및 LLM 훈련 데이터 구성에 기여 가능성
한계점:
LLM의 성능 한계: 기존 LLM은 SQL-Synth에서 충분한 성능을 보이지 않음
Fine-tuning의 필요성: LLM의 성능 향상을 위해 추가적인 fine-tuning이 필요
👍