Sign In

Fact-Consistency Evaluation of Text-to-SQL Generation for Business Intelligence Using Exaone 3.5

Created by
  • Haebom
Category
Empty

저자

Jeho Choi

개요

본 논문은 대규모 언어 모델(LLM)을 활용한 구조화된 데이터 질의를 위한 자연어 인터페이스(text-to-SQL) 생성의 현실적인 비즈니스 인텔리전스(BI) 환경 적용에 대한 한계를 다룹니다. LG전자의 내부 BigQuery 환경의 실제 판매 데이터에서 도출된 219개의 비즈니스 질문으로 구성된 도메인 특화 벤치마크를 사용하여, 지시어 튜닝된 이중 언어 LLM인 Exaone 3.5의 성능을 평가합니다. 각 질문에는 골드 스탠다드 SQL 쿼리와 검증된 정답이 함께 제공됩니다. 정답 정확도, 실행 성공률, 의미 오류율, 무응답률을 사용하여 모델 성능을 평가한 결과, Exaone 3.5는 단순 집계 작업에서는 높은 정확도를 보였지만, 산술 추론 및 그룹화 순위 작업에서는 정확도가 크게 저하됨을 보였습니다. 이는 복잡한 경우에 의미 오류와 무응답이 집중됨을 시사합니다. 본 연구는 재현 가능한 벤치마크와 평가 방법론을 제공하여 신뢰할 수 있는 자연어 인터페이스를 구축하는 데 기여합니다.

시사점, 한계점

시사점:
실제 비즈니스 환경에서 LLM 기반 text-to-SQL 생성의 현실적인 성능 한계를 밝힘.
도메인 특화된 벤치마크 및 평가 방법론 제공을 통해 LLM 기반 BI 시스템 개발을 위한 기준 제시.
LLM의 의미 정확성 평가를 위한 사실 일관성 평가 프레임워크 제안.
복잡한 SQL 쿼리 생성 시 발생하는 오류 유형(산술 논리 오류, 필터링 누락, 그룹화 오류 등)을 분석하고 개선 방향 제시.
한계점:
현재 벤치마크는 LG전자의 내부 데이터에 기반하여 도출되었으므로, 다른 도메인 또는 데이터셋으로의 일반화 가능성 제한.
Exaone 3.5라는 특정 LLM에 대한 평가이므로, 다른 LLM에 대한 일반화에는 제약 존재.
복잡한 질문에 대한 LLM의 성능 저하 원인에 대한 심층적인 분석 부족.
제안된 사실 일관성 평가 프레임워크의 범용성 및 확장성에 대한 추가 연구 필요.
👍