Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
SciReplicate-Bench: Evaluación comparativa de LLM en reproducción algorítmica impulsada por agentes a partir de artículos de investigación
Created by
Haebom
Autor
Yanzheng Xiang, Hanqi Yan, Shuyin Ouyang, Lin Gui, Yulan He
Describir
Este estudio evalúa modelos de lenguaje a gran escala (LLM) que generan código a partir de descripciones de algoritmos en artículos recientes de PLN. Esta tarea requiere dos competencias fundamentales: comprensión algorítmica (capacidad de sintetizar información de artículos y literatura académica para comprender la lógica de implementación) y experiencia en codificación (capacidad de identificar dependencias e implementar correctamente las API requeridas). Para garantizar una evaluación rigurosa, presentamos SciReplicate-Bench, un benchmark compuesto por 100 tareas de 36 artículos de PLN publicados en 2024. Este benchmark incluye anotaciones detalladas y casos de prueba completos. Basándonos en SciReplicate-Bench, proponemos Sci-Reproducer, un framework de doble agente compuesto por un Agente de Papel, que interpreta conceptos algorítmicos de la literatura, y un Agente de Código, que recupera dependencias de repositorios e implementa soluciones. Para evaluar la comprensión algorítmica, introducimos la precisión del grafo de inferencia, que cuantifica la similitud entre el grafo de inferencia generado y el grafo de inferencia de referencia derivado de las anotaciones y la estructura del código. Para evaluar la calidad de la implementación, utilizamos métricas de precisión de ejecución, CodeBLEU y dependencia del repositorio/recuperación de API. En nuestros experimentos, evaluamos varios LLM robustos de no inferencia e inferencia como modelos de referencia. El LLM con mejor rendimiento, que utiliza \ModelName, alcanzó solo un 39 % de precisión, lo que pone de manifiesto la dificultad de la evaluación comparativa. Nuestro análisis reveló que la falta de descripciones de algoritmos o la inconsistencia de estas eran un obstáculo importante para la reproducibilidad. El punto de referencia y el código están disponibles en https://github.com/xyzCS/SciReplicate-Bench , y la página principal del proyecto está disponible en https://xyzcs.github.io/scireplicate.github.io/에서 .
Proporciona criterios de evaluación rigurosos y puntos de referencia (SciReplicate-Bench) para la comprensión de algoritmos y las habilidades de generación de código del LLM.
◦
Presentamos nuevas métricas para evaluar la comprensión del algoritmo y las capacidades de implementación del código (precisión del gráfico de inferencia, precisión de ejecución, CodeBLEU, dependencia del repositorio/recuperación de API).
◦
Destaca claramente las limitaciones de la reproducibilidad algorítmica actual de LLM (baja precisión de ejecución de los modelos de mejor rendimiento).
◦
Demostramos que la calidad de la descripción del algoritmo tiene un impacto significativo en el éxito de la generación de código.
•
Limitations:
◦
El número de documentos y tareas incluidos en el benchmark puede ser limitado.
◦
Es necesaria una consideración exhaustiva de los indicadores de evaluación y existe la posibilidad de que haya sesgo hacia indicadores específicos.
◦
Los tipos de LLM utilizados pueden ser limitados y es necesario evaluar una gama más amplia de modelos.
◦
Es difícil descartar por completo la influencia de factores externos, como la falta de exhaustividad en la descripción del algoritmo.