[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Code MERA : un cadre unifié pour évaluer la génération de code entre les tâches

Created by
  • Haebom

Auteur

Artem Chervyakov, Alexander Kharitonov, Pavel Zadorozhny, Adamenko Pavel, Rodion Levichev, Dmitrii Vorobev, Dmitrii Salikhov, Aidar Valeev, Alena Pestova, Maria Dziuba, Ilseyar Alimova, Artem Zavgorodnev, Aleksandr Medvedev, Stanislav Moiseev, Elena Bruches, Daniil Grebenkin, Roman Derunets, Vikulov Vladimir, Anton Emelyanov, Dmitri Babaev, Vladimir V. Ivanov, Valentin Malykh, Alena Fenogenova

Contour

MERA Code est un module complémentaire au nouveau benchmark MERA, spécialement conçu pour évaluer les LLM modernes de génération de code en russe. Il comprend 11 tâches d'évaluation utilisant 8 langages de programmation afin de remédier au problème que posent les évaluations LLM actuelles, qui se concentrent sur le traitement du langage naturel et négligent la qualité du code. Il fournit une taxonomie des compétences de codage réelles et une base de code open source avec un système de notation, un classement et un système de soumission compatible avec divers environnements de programmation. Diffusion publique, il vise à analyser les limites des LLM sur les tâches de codage réelles dans des langues autres que l'anglais, à fournir des lignes directrices pour les recherches futures, à anticiper les avancées en matière de développement de modèles et à standardiser le processus d'évaluation.

Takeaways, Limitations

Takeaways:
Fournir des repères standardisés pour évaluer la génération de code LLM dans des langues autres que l'anglais, y compris le russe.
Présentation d’une nouvelle méthodologie d’évaluation qui se concentre sur l’évaluation des compétences réelles en codage.
Augmentez l'activation de la recherche et les possibilités de recherche collaborative en fournissant des bases de code open source et des classements.
Acquérir une compréhension plus approfondie des capacités de codage et des limites réelles d’un LLM.
Limitations :
Actuellement axé sur le russe, mais doit être étendu à d'autres langues.
La portée des tâches d'évaluation peut être limitée. Des langages de programmation et des tâches plus diversifiés doivent être ajoutés.
Les repères nécessitent une maintenance et des mises à jour continues.
👍