Sign In

Beyond Synthetic Benchmarks: Evaluating LLM Performance on Real-World Class-Level Code Generation

Created by
  • Haebom
Category
Empty

저자

Musfiqur Rahman, SayedHassan Khatoonabadi, Emad Shihab

개요

본 논문은 대규모 언어 모델(LLM)의 실제 소프트웨어 프로젝트 내 클래스 수준 구현 능력에 대한 연구를 수행한다. 오픈 소스 저장소에서 추출한 새로운 벤치마크를 활용하여 LLM의 일반화 능력을 평가하고, 다양한 입력 사양, 검색 증강 구성, 문서화 수준에 따른 성능을 분석한다. 그 결과, LLM이 합성 벤치마크에서는 높은 정확도를 보이지만, 실제 클래스 작업에서는 현저히 낮은 성능을 보였으며, 문서화 및 검색 증강이 성능에 미치는 영향을 분석했다. 주요 오류 유형을 파악하고, 현재 LLM의 한계를 드러내어, 컨텍스트 모델링, 문서화 전략, 검색 통합 개선에 대한 시사점을 제시한다.

시사점, 한계점

LLM은 실제 클래스 수준의 구현에서 낮은 정확도를 보인다.
친숙한 코드베이스와 새로운 코드베이스 간의 성능 차이는 거의 없다.
완전한 문서화는 제한적인 성능 향상만을 가져온다.
검색 증강 생성은 부분적인 문서화 환경에서 가장 효과적이다.
AttributeError, TypeError, AssertionError가 주요 오류 유형이다.
합성 테스트는 보장 문제에, 실제 시나리오는 유형 및 속성 불일치에 초점을 둔다.
검색 증강은 논리적 결함을 줄일 수 있지만, 종속성 충돌을 유발할 수 있다.
현재 LLM의 클래스 수준 엔지니어링 능력에 대한 중요한 한계를 보여준다.
컨텍스트 모델링, 문서화 전략, 검색 통합 개선에 대한 시사점을 제공한다.
👍