Falcon은 MaxCompute/Hive 기반의 기업 호환 방언을 사용하는, 중국어 텍스트-SQL 벤치마크입니다. 28개의 데이터베이스에 대한 600개의 중국어 질문으로 구성되며, 77%는 다중 테이블 추론을 요구하고 절반 이상이 4개 이상의 테이블과 관련되어 있습니다. 각 예제는 SQL-계산 특징과 중국어 의미론에 따라 주석 처리됩니다. 평가를 위해 강력한 실행 비교기와 자동화된 평가 파이프라인을 공개했으며, 현재 모든 최첨단 대규모 모델(Deepseek 포함)은 최대 50%의 정확도를 달성합니다. 주요 오류는 (1) 대규모 엔터프라이즈 환경에서의 스키마 연결 - 수백 개의 테이블, 정규화되지 않은 필드, 모호한 열 이름, 암시적 외부 키 관계, 도메인별 동의어로 인해 올바른 조인/열 선택이 어렵습니다. (2) 간결하고 구어적인 중국어를 분석에 필요한 정확한 연산자와 술어로 매핑 - 올바른 집계 및 그룹화 키 선택, 시간 창 및 세분성 표현, 단위 변환 적용, NULL 처리 및 데이터 품질 규칙, 중첩 또는 창 하위 쿼리 공식화 등이 있습니다. Falcon은 중국어 고유의 의미론과 기업 방언(약어, 비즈니스 전문 용어, 모호한 엔티티 참조)을 목표로 하며, 현실적인 엔터프라이즈 스키마, 쿼리 템플릿, 실행 비교기 및 자동화된 평가 파이프라인을 사용하여 전체 프로덕션 배포 전에 재현 가능한 중간 지점을 제공합니다.