# OpenClassGen: A Large-Scale Corpus of Real-World Python Classes for LLM Research

### 저자

Musfiqur Rahman, SayedHassan Khatoonabadi, Emad Shihab

### 💡 개요

기존의 클래스 단위 코드 생성 데이터셋은 규모가 작거나 합성 데이터에 의존하여 LLM 연구에 한계가 있었습니다. 본 연구는 2,970개의 오픈소스 프로젝트에서 추출한 324,843개의 Python 클래스로 구성된 대규모 말뭉치인 OpenClassGen을 제안합니다. OpenClassGen은 클래스 및 메서드 시그니처와 docstring을 포함하는 자체 포함형 스켈레톤을 제공하며, 27가지 정적 코드 메트릭으로 풍부하게 보강되었습니다.

### 🔑 시사점 및 한계

- **대규모 실제 코드 데이터셋 제공:** LLM의 클래스 레벨 코드 생성 능력을 평가하고 개선하기 위한 대규모 실제 Python 클래스 데이터셋을 제공하여 기존의 한계를 극복했습니다.

- **다양한 LLM 평가 및 분석 지원:** 제공된 데이터셋은 LLM 간의 성능 차이를 명확히 보여주며, 파인튜닝, 검색 증강 생성, 난이도 모델링 등 다양한 연구에 활용될 수 있습니다.

- **기능적 정확도 개선 필요:** LLM이 생성한 코드의 의미론적 유사성은 높으나, 실제 실행 시의 기능적 정확도는 여전히 개선의 여지가 있음을 보여줍니다.

[PDF 보기](https://arxiv.org/pdf/2504.15564)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
