Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution

Created by
  • Haebom

저자

Terry Yue Zhuo, Xiaolong Jin, Hange Liu, Juyong Jiang, Tianyang Liu, Chen Gong, Bhupesh Bishnoi, Vaisakhi Mishra, Marek Suppa, Noah Ziems, Saiteja Utpala, Ming Xu, Guangyu Song, Kaixin Li, Yuhan Cao, Bo Liu, Zheng Liu, Sabina Abdurakhmanova, Wenhao Yu, Mengzhao Jia, Jihan Yao, Kenneth Hamilton, Kumar Shridhar, Minh Chien Vu, Dingmin Wang, Jiawei Liu, Zijian Wang, Qian Liu, Binyuan Hui, Meg Risdal, Ahsen Khaliq, Atin Sood, Zhenchang Xing, Wasi Uddin Ahmad, John Grundy, David Lo, Banghua Zhu, Xiaoning Du, Torsten Scholak, Leandro von Werra

개요

본 논문은 Chatbot Arena를 기반으로 코드 생성을 위한 오픈형 인간 평가 플랫폼인 BigCodeArena를 소개합니다. BigCodeArena는 LLM이 생성한 코드를 실행하고 인간이 실행 과정과 결과와 상호 작용할 수 있도록 합니다. 10개의 LLM, 10개의 언어, 8가지 실행 환경에서 수집된 14,000개 이상의 코드 중심 대화 세션을 통해 4,700개 이상의 쌍별 인간 선호도를 가진 다중 턴 샘플을 식별했습니다. 또한, BigCodeReward와 AutoCodeArena라는 두 가지 벤치마크를 구축하여 LLM의 코드 이해 및 생성 능력을 체계적으로 평가했습니다. BigCodeReward를 통해 실행 결과가 있을 때 대부분의 LLM이 코딩 선호도를 판단하는 데 뛰어난 성능을 보임을 확인했습니다. AutoCodeArena는 인간 개입 없이 LLM의 코딩 품질을 평가하도록 설계된 자동 Elo 평점 벤치마크입니다.

시사점, 한계점

시사점:
BigCodeArena는 LLM의 코드 생성 능력을 평가하기 위한 새로운 오픈형 인간 평가 플랫폼을 제공합니다.
다양한 언어와 실행 환경을 지원하여 LLM의 광범위한 능력을 평가할 수 있습니다.
실행 결과가 있는 경우 LLM이 코딩 선호도를 판단하는 데 더 뛰어난 성능을 보입니다.
AutoCodeArena는 자동화된 방식으로 LLM의 코딩 품질을 평가할 수 있는 벤치마크를 제공합니다.
GPT-5, Claude-Sonnet-4, Claude-Opus-4와 같은 상용 LLM이 최신 모델보다 코드 생성 성능에서 우위를 보였습니다.
한계점:
논문에서 구체적인 한계점은 명시되지 않았습니다. (논문 요약본만 제공되었기에 한계점을 파악하기 어려움)
👍