# StatLLM: A Dataset for Evaluating the Performance of Large Language Models in Statistical Analysis

### 저자

Xinyi Song, Lina Lee, Kexin Xie, Xueying Liu, Xinwei Deng, Yili Hong

### 개요

본 논문은 대규모 언어 모델(LLM)이 생성한 통계 코드의 정확성 평가를 위한 벤치마크 데이터셋인 StatLLM을 소개합니다.  StatLLM은 다양한 통계 분석 작업, LLM(ChatGPT 3.5, ChatGPT 4.0, Llama 3.1)이 생성한 SAS 코드, 그리고 전문가의 평가 점수(정확성, 효율성, 가독성, 실행 가능성, 출력 정확성)로 구성됩니다. 이 데이터셋은 LLM의 통계 코딩 성능 평가, 자연어 처리 지표 개선, 차세대 통계 소프트웨어 개발 및 테스트에 활용될 수 있습니다.

### 시사점, 한계점

- **시사점:**

    - LLM 기반 통계 분석 코드 생성 성능 평가를 위한 표준화된 벤치마크 데이터셋 제공

    - LLM 성능 향상 및 자연어 처리 지표 개선 연구에 기여

    - 차세대 통계 소프트웨어 개발 및 테스트를 위한 기반 마련

    - SAS 코드 중심의 평가를 통해 통계 분석 분야에서 LLM 활용 가능성 제시

- **한계점:**

    - 현재 SAS 코드에만 집중되어 다른 통계 프로그래밍 언어(R 등) 지원 부족

    - ChatGPT와 Llama 모델의 결과만 포함되어 다른 LLM의 성능 비교 어려움

    - 평가 점수가 전문가의 주관적 판단에 의존적일 수 있음

    - 데이터셋의 규모 및 다양성이 향후 연구를 통해 더욱 확장될 필요성 존재

[PDF 보기](https://arxiv.org/pdf/2502.17657)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).