Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Generating High-Quality Datasets for Code Editing via Open-Source Language Models

Created by
  • Haebom

저자

Zekai Zhang, Mingwei Liu, Zhenxi Chen, Linxi Liang, Yuxuan Chen, Guangsheng Ou, Yanlin Wang, Dan Li, Xin Peng, Zibin Zheng

개요

OpenCodeEdit은 소프트웨어 엔지니어링에서 중요한 역할을 하는 코드 편집을 위해 여러 LLM을 활용하여 현실적인 코드 편집 삼중항을 합성하는 오픈 소스 파이프라인입니다. 이 파이프라인은 간결한 "lazy" 지침과 더 자세한 "descriptive" 지침을 모두 생성하며, 데이터 품질과 다양성을 보장하기 위해 diffs 및 주제 기반 필터링을 적용합니다. 이를 통해 20,000개의 샘플로 구성된 큐레이션된 데이터 세트인 OCEDataFT를 구축했습니다. OCEDataFT에서 세 가지 고급 기본 모델을 미세 조정하면 CanItEdit 벤치마크에서 성능이 크게 향상되어, pass@1이 4.50%에서 20.79%까지 상대적으로 향상되었습니다. 특히, 생성된 모델은 독점적인 리소스나 수동 주석 없이도 GPT-4와의 격차를 3.54%까지 좁히며, 폐쇄형 시스템에 근접하는 성능을 달성했습니다.

시사점, 한계점

시사점:
오픈 소스 파이프라인을 통해 실제 코드 편집 지침을 생성하고, 이를 통해 벤치마크 성능을 향상시킴.
독점적인 리소스 없이도 GPT-4에 근접하는 성능을 달성하여, 오픈 소스 모델의 경쟁력을 입증함.
간결한 지침과 상세한 지침을 모두 생성하여 다양한 상황에 대응할 수 있도록 함.
한계점:
데이터 품질과 다양성을 보장하기 위한 필터링 방법의 효과에 대한 추가적인 분석이 필요함.
모델의 일반화 능력 및 다양한 코드 편집 작업에 대한 적용 가능성을 추가적으로 검증해야 함.
성능 향상에 기여한 세부적인 요소(예: 특정 LLM, 미세 조정 전략)에 대한 추가적인 연구가 필요함.
👍