[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Código MERA: un marco unificado para evaluar la generación de código en distintas tareas

Created by
  • Haebom

Autor

Artem Chervyakov, Alexander Kharitonov, Pavel Zadorozhny, Adamenko Pavel, Rodion Levichev, Dmitrii Vorobev, Dmitrii Salikhov, Aidar Valeev, Alena Pestova, Maria Dziuba, Ilseyar Alimova, Artem Zavgorodnev, Aleksandr Medvedev, Stanislav Moiseev, Elena Bruches, Daniil Grebenkin, Roman Derunets, Vikulov Vladimir, Anton Emelyanov, Dmitrii Babaev, Vladimir V. Ivanov, Valentin Malykh, Alena Fenogenova

Describir

MERA Code es una nueva incorporación al índice de referencia MERA, diseñado específicamente para evaluar los LLM modernos de generación de código en ruso. Incluye 11 tareas de evaluación que utilizan 8 lenguajes de programación para abordar el problema de que las evaluaciones LLM actuales se centran en el procesamiento del lenguaje natural y descuidan la calidad del código. Proporciona una taxonomía de habilidades de programación reales y una base de código abierto con un sistema de puntuación, una tabla de clasificación y un sistema de envío compatible con diversos entornos de programación. Se distribuye públicamente para analizar las limitaciones de los LLM en tareas de codificación reales en idiomas distintos del inglés, proporcionar directrices para futuras investigaciones, anticipar avances en el desarrollo de modelos y estandarizar el proceso de evaluación.

Takeaways, Limitations

Takeaways:
Proporcionar puntos de referencia estandarizados para evaluar la generación de código LLM en idiomas distintos del inglés, incluido el ruso.
Presentamos una nueva metodología de evaluación que se centra en evaluar las habilidades de codificación reales.
Aumente la activación de la investigación y las posibilidades de investigación colaborativa proporcionando bases de código fuente abierto y tablas de clasificación.
Obtenga una comprensión más profunda de las capacidades y limitaciones de codificación del mundo real de un LLM.
Limitations:
Actualmente se centra en el ruso, pero es necesario ampliarlo a otros idiomas.
El alcance de las tareas de evaluación puede ser limitado. Es necesario añadir lenguajes de programación y tareas más diversos.
Los puntos de referencia requieren mantenimiento y actualizaciones constantes.
👍