Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UA-Code-Bench: A Competitive Programming Benchmark for Evaluating LLM Code Generation in Ukrainian

Created by
  • Haebom
Category
Empty

저자

Mykyta Syromiatnikov, Victoria Ruvinskaya

개요

본 논문은 우크라이나어를 대상으로 대규모 언어 모델의 코드 생성 및 경쟁 프로그래밍 문제 해결 능력을 평가하기 위한 새로운 오픈 소스 벤치마크인 UA-Code-Bench를 소개합니다. 이 벤치마크는 Eolymp 플랫폼의 500개 문제로 구성되어 있으며, 13개의 주요 모델을 사용하여 Python 솔루션을 생성하고 숨겨진 테스트를 통해 코드 정확성을 평가했습니다. 연구 결과는 최고 성능의 모델조차도 절반의 문제만 해결하며, 저자원 언어에서의 코드 생성의 어려움을 강조합니다. 또한 다양한 난이도에 따른 성능 분석, 솔루션 고유성 및 계산 효율성 평가를 수행했습니다.

시사점, 한계점

UA-Code-Bench는 저자원 언어에서 대규모 언어 모델의 코드 생성 능력을 평가하는 데 유용한 벤치마크를 제공합니다.
우크라이나어와 같은 저자원 언어에서의 코드 생성은 여전히 어려운 과제임을 보여줍니다.
경쟁 프로그래밍 벤치마크는 대규모 언어 모델 평가에 가치가 있습니다.
다양한 난이도와 계산 효율성을 분석하여 모델 성능을 심층적으로 평가합니다.
향후 다국어 코드 생성 및 추론 강화 모델 연구에 기여할 수 있습니다.
제한된 수의 문제(500개)를 사용하므로 모델 일반화 능력에 대한 완전한 평가가 어려울 수 있습니다.
특정 프로그래밍 언어(Python)에 국한되어 다른 언어에 대한 일반화가 필요합니다.
평가에 사용된 모델이 제한적일 수 있으며, 최신 모델의 성능을 반영하지 못할 수 있습니다.
👍