Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
LoCoBench es un benchmark integral diseñado específicamente para evaluar modelos de lenguaje de contexto largo (LLM) con largas ventanas de contexto, que alcanzan millones de tokens, en escenarios de desarrollo de software realistas y complejos. A diferencia de los benchmarks de evaluación de código existentes, que se centran en la finalización de una sola función o en tareas de contexto corto, LoCoBench aborda la crucial brecha de evaluación de las características de contexto largo necesarias para comprender bases de código completas, razonar entre múltiples archivos y mantener la coherencia arquitectónica en sistemas de software a gran escala. Proporciona 8000 escenarios de evaluación generados sistemáticamente en 10 lenguajes de programación, con longitudes de contexto que van desde 10 000 hasta 1 millón de tokens, lo que representa una variación de 100 veces, lo que permite una evaluación precisa de la degradación del rendimiento de contexto largo en entornos de desarrollo de software reales. Introduce ocho categorías de tareas que capturan las características de contexto largo: comprensión de la arquitectura, refactorización entre archivos, desarrollo multisesión, investigación de errores, implementación funcional, comprensión de código, pruebas de integración y análisis de seguridad. A través de un proceso de cinco etapas, se genera un conjunto diverso y de alta calidad de escenarios que requieren que los LLM razonen sobre bases de código complejas a una escala sin precedentes. Presentamos un marco de evaluación integral que incluye 17 métricas (incluidas ocho nuevas) en cuatro dimensiones y la puntuación LoCoBench (LCBS). Los resultados de la evaluación con modelos de contexto largo de vanguardia revelan una brecha de rendimiento significativa, lo que pone de relieve la importante necesidad insatisfecha de comprensión del contexto en el desarrollo de software complejo. LoCoBench se lanzará en https://github.com/SalesforceAIResearch/LoCoBench .
Proporcionamos un nuevo punto de referencia para evaluar de forma integral el desempeño del LLM a largo plazo en escenarios de desarrollo de software del mundo real.
◦
Al revelar importantes cuestiones no resueltas en la comprensión contextual, sugerimos futuras direcciones de investigación.
◦
Admite una amplia gama de lenguajes de programación y tipos de tareas, lo que permite una amplia gama de evaluaciones.
◦
Análisis preciso de la degradación del rendimiento contextual a través de cambios de longitud contextual de hasta 100 veces.
◦
Es posible una evaluación más sofisticada mediante la introducción de nuevos indicadores de evaluación.
•
Limitations:
◦
Falta de descripción detallada del proceso de creación de benchmarks y diseño de métricas de evaluación (se necesita más información).
◦
El tipo y número de modelos evaluados actualmente pueden ser limitados (se necesitan evaluaciones de modelos adicionales).
◦
Es posible que no refleje perfectamente todos los aspectos del desarrollo de software en el mundo real (limitando algunos escenarios).