본 논문은 코드 편집 기능을 중점적으로 평가하는 새로운 평가 프레임워크인 CodeEditorBench를 소개합니다. 기존의 코드 생성에만 초점을 맞춘 벤치마크와 달리, CodeEditorBench는 디버깅, 코드 변환, 코드 다듬기, 요구사항 변경 등 실제 소프트웨어 개발의 실용적인 측면과 다양한 시나리오를 강조합니다. 다섯 가지 출처에서 수집한 다양한 프로그래밍 언어, 복잡도 수준, 편집 작업을 포함하는 코딩 과제를 큐레이션하여 19개의 LLM을 평가한 결과, 클로즈드 소스 모델(특히 Gemini-Ultra와 GPT-4)이 오픈 소스 모델보다 성능이 우수한 것으로 나타났습니다. CodeEditorBench는 모든 프롬프트와 데이터셋을 공개하여 커뮤니티가 데이터셋을 확장하고 새로운 LLM을 벤치마킹할 수 있도록 지원합니다.
시사점, 한계점
•
시사점:
◦
실제 소프트웨어 개발 시나리오를 반영한 코드 편집 능력 평가 프레임워크 CodeEditorBench 제시.
◦
다양한 프로그래밍 언어, 복잡도, 편집 작업을 포괄하는 포괄적인 평가.
◦
클로즈드 소스 LLM의 우수한 성능 확인 및 오픈 소스 모델과의 성능 차이 분석.
◦
코드 편집 분야 LLM 발전을 위한 촉매제 역할 기대.
◦
데이터셋과 프롬프트 공개를 통한 지속적인 발전 가능성 제시.
•
한계점:
◦
현재 평가된 LLM의 수 (19개)가 상대적으로 제한적일 수 있음.
◦
평가 데이터셋의 다양성과 대표성에 대한 추가적인 검토 필요.
◦
특정 유형의 프롬프트에 대한 민감도가 모델 성능에 영향을 미치는 요인으로 확인되었으나, 이에 대한 심층적인 분석 부족.