Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WizardCoder: Empowering Code Large Language Models with Evol-Instruct

Created by
  • Haebom

저자

Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang

개요

본 논문은 StarCoder와 같은 코드 대규모 언어 모델(Code LLMs)이 코드 관련 작업에서 뛰어난 성능을 보이지만, 대부분의 기존 모델은 지시어 미세 조정 없이 방대한 원시 코드 데이터로만 사전 훈련된다는 점을 지적합니다. 이에 연구진은 Evol-Instruct 방법을 코드 영역에 적용하여 복잡한 지시어 미세 조정으로 Code LLMs를 강화한 WizardCoder를 제시합니다. HumanEval, HumanEval+, MBPP, DS-1000 등 네 가지 주요 코드 생성 벤치마크에 대한 포괄적인 실험을 통해 WizardCoder의 탁월한 성능을 입증합니다. WizardCoder는 다른 모든 오픈소스 Code LLMs를 상당한 차이로 능가하며, HumanEval과 HumanEval+에서는 Anthropic의 Claude 및 Google의 Bard와 같은 가장 큰 폐쇄형 LLMs보다도 성능이 뛰어납니다. 코드, 모델 가중치 및 데이터는 https://github.com/nlpxucan/WizardLM 에서 공개됩니다.

시사점, 한계점

시사점:
Evol-Instruct 방법을 코드 영역에 적용하여 Code LLMs의 성능을 크게 향상시킬 수 있음을 보여줍니다.
오픈소스 Code LLM 중 최고 성능을 달성하여, 접근성과 연구 발전에 기여합니다.
일부 벤치마크에서 폐쇄형 최첨단 모델들을 능가하는 성능을 보여줍니다.
코드, 모델 가중치, 데이터를 공개하여 재현성과 후속 연구를 용이하게 합니다.
한계점:
특정 벤치마크에 대한 성능 평가에 국한되어, 다른 코드 관련 작업에서의 일반화 성능은 추가 연구가 필요합니다.
Evol-Instruct 방법의 코드 영역 적용에 대한 세부적인 설명이나 한계점 분석이 부족할 수 있습니다.
다양한 프로그래밍 언어에 대한 성능 비교 분석이 제한적일 수 있습니다.
👍