Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Text-to-SQL Domain Adaptation via Human-LLM Collaborative Data Annotation

Created by
  • Haebom
Category
Empty

저자

Yuan Tian, Daniel Lee, Fei Wu, Tung Mai, Kun Qian, Siddhartha Sahai, Tianyi Zhang, Yunyao Li

개요

본 논문은 실제 응용 분야에서 널리 사용되는 Text-to-SQL 모델을 새로운 데이터베이스 스키마에 적용할 때 발생하는 성능 저하 문제를 해결하기 위해, 도메인별 데이터 부족 문제를 지적한다. 이 문제를 해결하기 위해, 본 논문은 인간-LLM 협업 기반의 Text-to-SQL 데이터 주석 시스템인 SQLsynth를 제안한다. SQLsynth는 구조화된 워크플로우를 통해 고품질 Text-to-SQL 데이터 세트 생성을 간소화하며, 사용자 연구를 통해 수동 주석 및 ChatGPT 대비 데이터 주석 속도를 높이고 인지 부하를 줄이며 정확성, 자연성, 다양성이 향상된 데이터 세트를 생성함을 입증한다.

시사점, 한계점

시사점:
새로운 데이터베이스 스키마에 Text-to-SQL 모델을 적용하는 데 있어 데이터 부족 문제를 해결하는 혁신적인 접근 방식을 제시함.
인간-LLM 협업을 통해 데이터 주석의 효율성을 크게 향상시킴.
제안된 시스템 SQLsynth는 데이터 주석의 정확성, 자연성, 다양성을 개선함.
실제 응용 분야에서의 Text-to-SQL 모델 활용성을 높임.
한계점:
SQLsynth의 성능은 LLM의 품질에 의존하며, LLM의 한계가 시스템 성능에 영향을 미칠 수 있음.
특정 도메인 및 데이터베이스 스키마에 최적화된 결과가 일반화될 수 있는지 추가적인 연구가 필요함.
Github 링크를 통해 코드 접근은 가능하지만, 실제 구현 및 운영에 필요한 추가적인 정보 (예: LLM 설정, 시스템 아키텍처 등)에 대한 설명이 부족할 수 있음.
👍