StatLLM: A Dataset for Evaluating the Performance of Large Language Models in Statistical Analysis

작성자

Haebom

카테고리

비어 있음

저자

Xinyi Song, Lina Lee, Kexin Xie, Xueying Liu, Xinwei Deng, Yili Hong

개요

본 논문은 대규모 언어 모델(LLM)이 생성한 통계 코드의 정확성 평가를 위한 벤치마크 데이터셋인 StatLLM을 소개합니다. StatLLM은 다양한 통계 분석 작업, LLM(ChatGPT 3.5, ChatGPT 4.0, Llama 3.1)이 생성한 SAS 코드, 그리고 전문가의 평가 점수(정확성, 효율성, 가독성, 실행 가능성, 출력 정확성)로 구성됩니다. 이 데이터셋은 LLM의 통계 코딩 성능 평가, 자연어 처리 지표 개선, 차세대 통계 소프트웨어 개발 및 테스트에 활용될 수 있습니다.