Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SciReplicate-Bench: Evaluación comparativa de LLM en reproducción algorítmica impulsada por agentes a partir de artículos de investigación

Created by
  • Haebom

Autor

Yanzheng Xiang, Hanqi Yan, Shuyin Ouyang, Lin Gui, Yulan He

Describir

Este estudio evalúa modelos de lenguaje a gran escala (LLM) que generan código a partir de descripciones de algoritmos en artículos recientes de PLN. Esta tarea requiere dos competencias fundamentales: comprensión algorítmica (capacidad de sintetizar información de artículos y literatura académica para comprender la lógica de implementación) y experiencia en codificación (capacidad de identificar dependencias e implementar correctamente las API requeridas). Para garantizar una evaluación rigurosa, presentamos SciReplicate-Bench, un benchmark compuesto por 100 tareas de 36 artículos de PLN publicados en 2024. Este benchmark incluye anotaciones detalladas y casos de prueba completos. Basándonos en SciReplicate-Bench, proponemos Sci-Reproducer, un framework de doble agente compuesto por un Agente de Papel, que interpreta conceptos algorítmicos de la literatura, y un Agente de Código, que recupera dependencias de repositorios e implementa soluciones. Para evaluar la comprensión algorítmica, introducimos la precisión del grafo de inferencia, que cuantifica la similitud entre el grafo de inferencia generado y el grafo de inferencia de referencia derivado de las anotaciones y la estructura del código. Para evaluar la calidad de la implementación, utilizamos métricas de precisión de ejecución, CodeBLEU y dependencia del repositorio/recuperación de API. En nuestros experimentos, evaluamos varios LLM robustos de no inferencia e inferencia como modelos de referencia. El LLM con mejor rendimiento, que utiliza \ModelName, alcanzó solo un 39 % de precisión, lo que pone de manifiesto la dificultad de la evaluación comparativa. Nuestro análisis reveló que la falta de descripciones de algoritmos o la inconsistencia de estas eran un obstáculo importante para la reproducibilidad. El punto de referencia y el código están disponibles en https://github.com/xyzCS/SciReplicate-Bench , y la página principal del proyecto está disponible en https://xyzcs.github.io/scireplicate.github.io/에서 .

Takeaways, Limitations

Takeaways:
Proporciona criterios de evaluación rigurosos y puntos de referencia (SciReplicate-Bench) para la comprensión de algoritmos y las habilidades de generación de código del LLM.
Presentamos nuevas métricas para evaluar la comprensión del algoritmo y las capacidades de implementación del código (precisión del gráfico de inferencia, precisión de ejecución, CodeBLEU, dependencia del repositorio/recuperación de API).
Destaca claramente las limitaciones de la reproducibilidad algorítmica actual de LLM (baja precisión de ejecución de los modelos de mejor rendimiento).
Demostramos que la calidad de la descripción del algoritmo tiene un impacto significativo en el éxito de la generación de código.
Limitations:
El número de documentos y tareas incluidos en el benchmark puede ser limitado.
Es necesaria una consideración exhaustiva de los indicadores de evaluación y existe la posibilidad de que haya sesgo hacia indicadores específicos.
Los tipos de LLM utilizados pueden ser limitados y es necesario evaluar una gama más amplia de modelos.
Es difícil descartar por completo la influencia de factores externos, como la falta de exhaustividad en la descripción del algoritmo.
👍