본 논문은 대규모 언어 모델(LLM)이 생성한 통계 코드의 정확성 평가를 위한 벤치마크 데이터셋인 StatLLM을 소개합니다. StatLLM은 다양한 통계 분석 작업, LLM(ChatGPT 3.5, ChatGPT 4.0, Llama 3.1)이 생성한 SAS 코드, 그리고 전문가의 평가 점수(정확성, 효율성, 가독성, 실행 가능성, 출력 정확성)로 구성됩니다. 이 데이터셋은 LLM의 통계 코딩 성능 평가, 자연어 처리 지표 개선, 차세대 통계 소프트웨어 개발 및 테스트에 활용될 수 있습니다.