# MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks

### 저자

Artem Chervyakov, Alexander Kharitonov, Pavel Zadorozhny, Adamenko Pavel, Rodion Levichev, Dmitrii Vorobev, Dmitrii Salikhov, Aidar Valeev, Alena Pestova, Maria Dziuba, Ilseyar Alimova, Artem Zavgorodnev, Aleksandr Medvedev, Stanislav Moiseev, Elena Bruches, Daniil Grebenkin, Roman Derunets, Vikulov Vladimir, Anton Emelyanov, Dmitrii Babaev, Vladimir V. Ivanov, Valentin Malykh, Alena Fenogenova

### 개요

MERA Code는 러시아어로 된 최신 코드 생성 LLM을 평가하기 위해 특별히 고안된 새로운 MERA 벤치마크의 추가 기능입니다.  기존의 LLM 평가가 자연어 처리에 초점을 맞추고 코드 품질을 간과하는 문제를 해결하기 위해, 8가지 프로그래밍 언어를 사용하는 11가지 평가 과제를 포함합니다.  실제 코딩 기술에 대한 분류 체계를 제시하며, 다양한 프로그래밍 환경과 호환되는 채점 시스템과 리더보드 및 제출 시스템을 갖춘 오픈소스 코드베이스를 제공합니다.  비영어권 언어에서의 실제 코딩 과제에 대한 LLM의 한계를 분석하고, 향후 연구를 위한 가이드라인을 제공하며 모델 개발의 획기적인 기능을 예상하고 평가 절차를 표준화하기 위해 공개적으로 배포됩니다.

### 시사점, 한계점

- **시사점:**

    - 러시아어를 포함한 비영어권 언어에서의 코드 생성 LLM 평가를 위한 표준화된 벤치마크 제공.

    - 실제 코딩 능력 평가에 중점을 둔 새로운 평가 방법론 제시.

    - 오픈소스 코드베이스 및 리더보드 제공을 통한 연구 활성화 및 공동 연구 가능성 증대.

    - LLM의 실제 코딩 능력 및 한계에 대한 심층적인 이해 증진.

- **한계점:**

    - 현재는 러시아어에 집중되어 있어 다른 언어에 대한 확장성이 필요.

    - 평가 과제의 범위가 제한적일 수 있음.  더 다양한 프로그래밍 언어 및 과제 추가 필요.

    - 벤치마크의 지속적인 유지보수 및 업데이트 필요.

[PDF 보기](https://arxiv.org/pdf/2507.12284)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
