본 논문은 대규모 언어 모델(LLM)의 실제 소프트웨어 프로젝트 내 클래스 수준 구현 능력에 대한 연구를 수행한다. 오픈 소스 저장소에서 추출한 새로운 벤치마크를 활용하여 LLM의 일반화 능력을 평가하고, 다양한 입력 사양, 검색 증강 구성, 문서화 수준에 따른 성능을 분석한다. 그 결과, LLM이 합성 벤치마크에서는 높은 정확도를 보이지만, 실제 클래스 작업에서는 현저히 낮은 성능을 보였으며, 문서화 및 검색 증강이 성능에 미치는 영향을 분석했다. 주요 오류 유형을 파악하고, 현재 LLM의 한계를 드러내어, 컨텍스트 모델링, 문서화 전략, 검색 통합 개선에 대한 시사점을 제시한다.