Distill-C: Enhanced NL2SQL via Distilled Customization with LLMs
Created by
Haebom
저자
Cong Duy Vu Hoang, Gioacchino Tangari, Clemence Lanfranchi, Dalu Guo, Paul Cayet, Steve Siu, Don Dharmasiri, Yuan-Fang Li, Long Duong, Damien Hilloulin, Rhicheek Patra, Sungpack Hong, Hassan Chafi
개요
본 논문에서는 기업 애플리케이션에서 대규모 언어 모델(LLM)의 채택 증가에 따라 고성능과 효율성을 모두 충족해야 하는 자연어 SQL 변환(NL2SQL) 솔루션에 대한 관심이 높아짐에 따라, 도메인 및 고객별 요구사항까지 고려하여 Distill-C라는 증류 기반 맞춤형 프레임워크를 제안합니다. Distill-C는 대규모 LLM을 활용하여 강력하고 확장 가능한 파이프라인을 통해 고품질의 합성 데이터를 생성하고, 이를 통해 소규모 오픈소스 LLM을 미세 조정하여 대규모 모델과 비교하거나 능가하는 성능을 달성합니다. 여러 벤치마크에서 평가한 결과, 기존 모델 대비 실행 정확도가 평균 36% 향상되었으며, 내부 고객 벤치마크에서도 22.6% 향상된 성능을 보였습니다. Distill-C는 경량이면서 강력한 NL2SQL 모델을 배포하기 위한 효과적이고 고성능이며 일반화 가능한 접근 방식으로, 뛰어난 정확도와 낮은 계산 비용을 동시에 제공합니다.
시사점, 한계점
•
시사점:
◦
대규모 LLM을 사용하여 고품질 합성 데이터를 생성하는 효과적인 방법을 제시합니다.
◦
소규모 오픈소스 LLM의 성능을 대폭 향상시켜, 자원 효율적인 NL2SQL 모델 구축을 가능하게 합니다.
◦
다양한 벤치마크에서 실질적인 성능 향상을 입증합니다.
◦
고객 맞춤형 NL2SQL 모델 개발에 활용 가능성을 제시합니다.
•
한계점:
◦
제시된 합성 데이터 생성 파이프라인의 구체적인 구현 방식 및 세부적인 기술적 내용이 부족합니다.