자연어를 시각화로 변환하는 NL2VIS는 데이터 분석의 접근성을 높이지만, 모호한 질문 해석에 어려움을 겪습니다. 본 논문은 모호한 질문을 포함하는 시나리오에서 NL2VIS 시스템을 평가하기 위한 새로운 벤치마크인 nvBench 2.0을 제시합니다. nvBench 2.0은 153개 도메인의 780개 테이블에서 파생된 7,878개의 자연어 질문과 24,076개의 해당 시각화를 포함하며, 제어된 모호성 주입 파이프라인을 사용하여 생성됩니다. 이 파이프라인은 모호하지 않은 시각화를 시작점으로 하여 모호성을 선택적으로 주입하여 각 질문에 대한 여러 가지 유효한 해석을 생성하며, 단계별 추론 경로를 통해 해당 시각화를 추적할 수 있습니다. 본 논문은 다양한 대규모 언어 모델(LLM)을 nvBench 2.0을 사용하여 모호한 NL2VIS 작업 수행 능력을 평가하고, 단계별 선호도 최적화를 통해 모호한 시나리오에서 성능을 향상시키는 LLM 기반 모델인 Step-NL2VIS를 제안합니다. 실험 결과, Step-NL2VIS는 모든 기준 모델을 능가하여 모호한 NL2VIS 작업에 대한 새로운 최첨단 기술을 설정했습니다.