Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SLR: Síntesis automatizada para razonamiento lógico escalable

Created by
  • Haebom

Autor

Lukas Helff, Ahmad Omar, Felix Friedrich, Antonia W ust, Hikaru Shindo, Rupert Mitchell, Tim Woydt, Patrick Schramowski, Wolfgang Stammer, Kristian Kersting

Describir

Este artículo presenta el Razonamiento Lógico Escalable (SLR), un marco integral para la evaluación y el entrenamiento sistemáticos de modelos lingüísticos a gran escala (LLM). A partir de la especificación de la tarea del usuario, SLR genera automáticamente (i) indicaciones instruccionales para tareas de razonamiento inductivo, (ii) programas de verificación ejecutables (con recompensas verificables) para la salida del modelo, y (iii) posibles reglas de verdad fundamental. Este proceso es totalmente automatizado y escalable, no requiere anotación humana y permite un control preciso de la dificultad de la tarea. Utilizando SLR, creamos SLR-Bench, un banco de pruebas compuesto por 19 000 indicaciones organizadas en 20 niveles curriculares de complejidad relacional, aritmética y recursiva creciente. Las evaluaciones a gran escala muestran que los LLM de vanguardia generan fácilmente reglas sintácticamente válidas, pero a menudo no logran un razonamiento lógico preciso. Si bien los LLM de inferencia recientes han mejorado su rendimiento, implican un coste computacional muy elevado en tiempo de prueba, que supera los 300 $ por 1000 preguntas. Finalmente, el aprendizaje curricular mediante SLR duplicó la precisión de SLR-Bench de Llama-3-8B, alcanzando un nivel comparable a Gemini-Flash-Thinking con un coste computacional significativamente menor. Además, esta capacidad de inferencia se generaliza a diversos puntos de referencia existentes, lo que destaca la eficacia de SLR para la inferencia posterior.

Takeaways, Limitations

Takeaways:
Presentamos SLR, un marco eficiente y escalable para evaluar y mejorar las habilidades de razonamiento lógico en LLM.
Construcción de un sistema automatizado que genera automáticamente indicaciones, programas de validación y reglas de verdad básica sin intervención humana.
Demostrar empíricamente que las habilidades de razonamiento LLM se pueden mejorar significativamente a través del aprendizaje curricular.
Proporcionamos un nuevo punto de referencia a gran escala llamado SLR-Bench para evaluar objetivamente las capacidades de inferencia de los LLM.
Consiga un rendimiento similar al de los modelos de alto rendimiento existentes a un coste menor.
Demostramos que las capacidades de inferencia mejoradas se generalizan a través de una variedad de puntos de referencia.
Limitations:
Actualmente, SLR-Bench se centra en un tipo específico de problema de razonamiento lógico y se necesita más investigación para generalizar su rendimiento a varios tipos de problemas de razonamiento.
El alto costo de calcular los tiempos de prueba para los LLM de alto rendimiento sigue siendo un área que requiere mejoras en el futuro.
Dado que el rendimiento de SLR puede depender de la arquitectura LLM específica, se necesitan más experimentos en diferentes arquitecturas.
👍