본 논문은 우크라이나어를 대상으로 대규모 언어 모델의 코드 생성 및 경쟁 프로그래밍 문제 해결 능력을 평가하기 위한 새로운 오픈 소스 벤치마크인 UA-Code-Bench를 소개합니다. 이 벤치마크는 Eolymp 플랫폼의 500개 문제로 구성되어 있으며, 13개의 주요 모델을 사용하여 Python 솔루션을 생성하고 숨겨진 테스트를 통해 코드 정확성을 평가했습니다. 연구 결과는 최고 성능의 모델조차도 절반의 문제만 해결하며, 저자원 언어에서의 코드 생성의 어려움을 강조합니다. 또한 다양한 난이도에 따른 성능 분석, 솔루션 고유성 및 계산 효율성 평가를 수행했습니다.