Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

Created by
  • Haebom

저자

Jiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi LI, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu

개요

본 논문은 코드 편집 기능을 중점적으로 평가하는 새로운 평가 프레임워크인 CodeEditorBench를 소개합니다. 기존의 코드 생성에만 초점을 맞춘 벤치마크와 달리, CodeEditorBench는 디버깅, 코드 변환, 코드 다듬기, 요구사항 변경 등 실제 소프트웨어 개발의 실용적인 측면과 다양한 시나리오를 강조합니다. 다섯 가지 출처에서 수집한 다양한 프로그래밍 언어, 복잡도 수준, 편집 작업을 포함하는 코딩 과제를 큐레이션하여 19개의 LLM을 평가한 결과, 클로즈드 소스 모델(특히 Gemini-Ultra와 GPT-4)이 오픈 소스 모델보다 성능이 우수한 것으로 나타났습니다. CodeEditorBench는 모든 프롬프트와 데이터셋을 공개하여 커뮤니티가 데이터셋을 확장하고 새로운 LLM을 벤치마킹할 수 있도록 지원합니다.

시사점, 한계점

시사점:
실제 소프트웨어 개발 시나리오를 반영한 코드 편집 능력 평가 프레임워크 CodeEditorBench 제시.
다양한 프로그래밍 언어, 복잡도, 편집 작업을 포괄하는 포괄적인 평가.
클로즈드 소스 LLM의 우수한 성능 확인 및 오픈 소스 모델과의 성능 차이 분석.
코드 편집 분야 LLM 발전을 위한 촉매제 역할 기대.
데이터셋과 프롬프트 공개를 통한 지속적인 발전 가능성 제시.
한계점:
현재 평가된 LLM의 수 (19개)가 상대적으로 제한적일 수 있음.
평가 데이터셋의 다양성과 대표성에 대한 추가적인 검토 필요.
특정 유형의 프롬프트에 대한 민감도가 모델 성능에 영향을 미치는 요인으로 확인되었으나, 이에 대한 심층적인 분석 부족.
CodeEditorBench의 지속적인 유지보수 및 업데이트 필요성.
👍