Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Every Sample Matters: Leveraging Mixture-of-Experts and High-Quality Data for Efficient and Accurate Code LLM

Created by
  • Haebom
Category
Empty

저자

Codefuse, Ling Team, :, Wenting Cai, Yuchen Cao, Chaoyu Chen, Chen Chen, Siba Chen, Qing Cui, Peng Di, Junpeng Fang, Zi Gong, Ting Guo, Zhengyu He, Yang Huang, Cong Li, Jianguo Li, Zheng Li, Shijie Lian, BingChang Liu, Songshan Luo, Shuo Mao, Min Shen, Jian Wu, Jiaolong Yang, Wenjie Yang, Tong Ye, Hang Yu, Wei Zhang, Zhenduo Zhang, Hailin Zhao, Xunjin Zheng, Jun Zhou

개요

본 논문은 코드 생성 및 이해에 뛰어난 성능을 보이는 코드 대규모 언어 모델(LLM)을 효율적으로 구축하는 데 초점을 맞추고 있습니다. 기존의 Qwen Coder 시리즈나 DeepSeek Coder 시리즈와 같이 성능과 효율성 간의 절충을 극복하기 위한 시도로, Ling-Coder-Lite를 소개합니다. Ling-Coder-Lite는 효율적인 전문가 혼합(MoE) 아키텍처와 고품질 데이터 큐레이션 방법(프로그램 분석 기반 방법 포함)을 활용하여 효율적이면서도 강력한 코드 LLM을 구축합니다. Qwen2.5-Coder-7B 및 DeepSeek-Coder-V2-Lite와 같은 유사한 크기의 최첨단 모델과 비교하여 12개의 대표적인 코딩 벤치마크에서 동등한 성능을 보이며, 경쟁력 있는 대기 시간과 처리량을 제공합니다. 성능 저하 없이 유사한 크기의 밀집 모델과 비교하여 배포 리소스를 50% 절감했습니다. 추가 연구 및 개발을 촉진하기 위해 모델과 고품질 데이터의 상당 부분을 오픈 소스로 공개합니다.

시사점, 한계점

시사점:
MoE 아키텍처와 고품질 데이터 큐레이션을 통해 효율적인 코드 LLM 구축 가능성을 제시.
유사 규모의 최첨단 모델과 비교하여 동등한 성능과 향상된 효율성을 달성.
배포 리소스를 50% 절감하여 경제적인 모델 운영 가능.
모델 및 데이터 오픈 소스 공개를 통한 추가 연구 및 개발 촉진.
한계점:
논문에서 제시된 12개의 벤치마크 외 다른 코딩 작업에 대한 성능은 추가적인 평가가 필요.
MoE 아키텍처의 특성상, 특정 작업에 대한 성능 편향 가능성 존재.
고품질 데이터 큐레이션 방법의 세부적인 설명이 부족하여 재현성에 대한 검토 필요.
👍