Sign In

Automatic database description generation for Text-to-SQL

Created by
  • Haebom
Category
Empty

저자

Yingqi Gao, Zhiling Luo

개요

본 논문은 Text-to-SQL 작업에서 명시적인 데이터베이스 설명이 없는 경우 효과적인 데이터베이스 설명을 자동으로 생성하는 방법을 제안합니다. 이 방법은 거칠게 세분화하는 과정과 세분화된 것을 다시 거칠게 하는 과정의 이중 과정을 사용합니다. 거칠게 세분화하는 과정은 LLM의 고유한 지식을 활용하여 데이터베이스에서 테이블, 열로 이해 과정을 안내하여 데이터베이스 구조에 대한 전체적인 이해와 문맥 정렬을 보장합니다. 반대로, 세분화된 것을 다시 거칠게 하는 과정은 열 수준에서 시작하여 테이블 수준으로 돌아갈 때 더 정확하고 미묘한 이해를 제공합니다. Bird 벤치마크에 대한 실험 결과에 따르면, 제안된 방법으로 생성된 설명을 사용하면 설명을 사용하지 않는 경우에 비해 SQL 생성 정확도가 0.93% 향상되고, 인간 수준 성능의 37%를 달성합니다. 소스 코드는 https://github.com/XGenerationLab/XiYan-DBDescGen 에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점: LLM을 활용하여 자동으로 데이터베이스 설명을 생성하는 효과적인 방법을 제시하여 Text-to-SQL 작업의 성능 향상에 기여합니다. 실험 결과를 통해 제안된 방법의 유용성을 검증하였으며, 공개된 소스 코드를 통해 재현성을 확보했습니다.
한계점: 인간 수준 성능에 비해 아직 37% 수준으로 성능 향상의 여지가 있습니다. 다양한 데이터베이스 스키마 및 자연어 질문에 대한 일반화 성능에 대한 추가적인 연구가 필요합니다. Bird 벤치마크 외 다른 벤치마크에 대한 실험 결과가 부족합니다.
👍