본 논문은 대규모 언어 모델(LLM)을 활용한 구조화된 데이터 질의를 위한 자연어 인터페이스(text-to-SQL) 생성의 현실적인 비즈니스 인텔리전스(BI) 환경 적용에 대한 한계를 다룹니다. LG전자의 내부 BigQuery 환경의 실제 판매 데이터에서 도출된 219개의 비즈니스 질문으로 구성된 도메인 특화 벤치마크를 사용하여, 지시어 튜닝된 이중 언어 LLM인 Exaone 3.5의 성능을 평가합니다. 각 질문에는 골드 스탠다드 SQL 쿼리와 검증된 정답이 함께 제공됩니다. 정답 정확도, 실행 성공률, 의미 오류율, 무응답률을 사용하여 모델 성능을 평가한 결과, Exaone 3.5는 단순 집계 작업에서는 높은 정확도를 보였지만, 산술 추론 및 그룹화 순위 작업에서는 정확도가 크게 저하됨을 보였습니다. 이는 복잡한 경우에 의미 오류와 무응답이 집중됨을 시사합니다. 본 연구는 재현 가능한 벤치마크와 평가 방법론을 제공하여 신뢰할 수 있는 자연어 인터페이스를 구축하는 데 기여합니다.