[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Evaluación del manejo de dependencias de largo alcance en LLM de generación de código

Created by
  • Haebom

Autor

Yannick Assogba, Donghao Ren

Describir

Este artículo analiza la capacidad de varios modelos de generación de código para gestionar dependencias de largo alcance mediante tareas de búsqueda de claves de varios pasos con ventanas de contexto de hasta 8.000 tokens de longitud. Al utilizar tareas progresivamente más difíciles, evaluamos el rendimiento del modelo de una manera más detallada que una simple prueba de "búsqueda de una aguja". En particular, encontramos que muchos modelos presentan degradaciones de rendimiento de hasta dos órdenes de magnitud cuando una función hace referencia a otra función definida posteriormente en el mensaje. También encontramos que los modelos que utilizan mecanismos de atención de ventana deslizante tienen dificultades para gestionar referencias que están más lejos que un tamaño de ventana única. Demostramos que las modificaciones simples del mensaje utilizando información del grafo de llamadas pueden mejorar el rendimiento de la búsqueda de varios pasos hasta en tres órdenes de magnitud. Este análisis destaca la necesidad de una consideración más profunda del rendimiento del contexto de texto largo más allá de la recuperación de un solo hecho en los documentos.

Takeaways, Limitations

Takeaways:
Presentamos un método de evaluación más granular para la capacidad de manejar dependencias de larga distancia.
Aclarar las capacidades __T23190_____ del modelo de generación de código para el manejo del contexto a largo plazo (especialmente las limitaciones de las referencias entre funciones y los mecanismos de atención de ventanas deslizantes).
Sugerir la posibilidad de mejorar el rendimiento mediante el uso de la información del gráfico de llamadas.
Destaca la necesidad de una evaluación exhaustiva del desempeño del contexto en formato largo, más allá de la simple recuperación de hechos.
Limitations:
Límites en el tipo y número de modelos de generación de código utilizados en el análisis.
Se necesitan más investigaciones para determinar si las mejoras de rendimiento mediante el uso de la información del gráfico de llamadas son aplicables a todos los casos.
Falta de análisis de rendimiento para contextos de más de 8.000 tokens.
👍