Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows
Created by
Haebom
Category
Empty
저자
Fangyu Lei, Jixuan Chen, Yuxiao Ye, Ruisheng Cao, Dongchan Shin, Hongjin Su, Zhaoqing Suo, Hongcheng Gao, Wenjing Hu, Pengcheng Yin, Victor Zhong, Caiming Xiong, Ruoxi Sun, Qian Liu, Sida Wang, Tao Yu
개요
Spider 2.0은 실제 기업 수준의 데이터베이스 사용 사례에서 파생된 632개의 실제 세계 텍스트-SQL 워크플로 문제로 구성된 평가 프레임워크입니다. Spider 2.0의 데이터베이스는 실제 데이터 애플리케이션에서 가져온 것으로, 종종 1,000개가 넘는 열을 포함하고 BigQuery 및 Snowflake와 같은 로컬 또는 클라우드 데이터베이스 시스템에 저장됩니다. Spider 2.0의 문제를 해결하려면 데이터베이스 메타데이터, 방언 설명서 및 프로젝트 수준 코드베이스를 이해하고 검색해야 하는 경우가 많습니다. 기존의 텍스트-SQL 과제를 훨씬 넘어서는 100줄 이상의 다양한 작업을 수행하는 여러 SQL 쿼리를 생성하기 위해 복잡한 SQL 워크플로 환경과 상호 작용하고, 매우 긴 컨텍스트를 처리하고, 복잡한 추론을 수행해야 합니다. o1-preview 기반 코드 에이전트 프레임워크는 Spider 1.0에서 91.2%, BIRD에서 73.0%의 성공률을 보인 것과 비교하여 Spider 2.0 작업의 21.3%만 성공적으로 해결했습니다. 이는 실제 기업 환경에서 사용하기 위해서는 언어 모델의 성능이 크게 개선되어야 함을 시사합니다. Spider 2.0에서의 진전은 실제 기업 환경을 위한 지능적이고 자율적인 코드 에이전트 개발을 위한 중요한 단계를 나타냅니다.
시사점, 한계점
•
시사점: 실제 기업 환경의 복잡한 텍스트-SQL 워크플로 문제를 평가하기 위한 새로운 벤치마크인 Spider 2.0을 제시합니다. 기존 벤치마크보다 훨씬 더 복잡하고 현실적인 문제를 포함하여 언어 모델의 한계를 드러냅니다. 실제 기업 환경에서의 코드 에이전트 개발을 위한 중요한 방향을 제시합니다.
•
한계점: 기존의 텍스트-SQL 모델이 Spider 2.0의 복잡한 문제에 대해 상대적으로 낮은 성능을 보였습니다. 실제 기업 환경의 다양한 요구사항을 완벽하게 반영하지 못할 수 있습니다. 더욱 발전된 코드 에이전트 및 모델 개발이 필요함을 보여줍니다.