Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Modelos lingüísticos de autocuestionamiento

Created by
  • Haebom

Autor

Lili Chen, Mihir Prabhudesai, Katerina Fragkiadaki, Hao Liu, Deepak Pathak

Describir

Este artículo investiga si los modelos de lenguaje preentrenados pueden mejorar su capacidad de inferencia generando preguntas y respuestas por sí mismos, sin datos externos. Para lograrlo, proponemos un método que proporciona una única indicación, especificando un tema (p. ej., un problema algebraico) y permitiendo que el modelo genere preguntas por sí mismo. Presentamos Modelos de Lenguaje de Autocuestionamiento (SQLM), un marco de autoaprendizaje asimétrico que consta de un proponente (para generar preguntas) y un solucionador (para generar respuestas), ambos entrenados mediante aprendizaje por refuerzo. El proponente es recompensado por generar problemas de dificultad adecuada, mientras que el solucionador es recompensado según la mayoría de votos (o aproximaciones si no se encuentra la respuesta correcta). Para problemas de codificación, el proponente genera pruebas unitarias y las utiliza para la validación. Demostramos este marco en tres puntos de referencia: multiplicación de tres dígitos, problemas de álgebra del punto de referencia OMEGA y problemas de programación de Codeforces, demostrando que el marco puede mejorar el rendimiento del modelo de lenguaje sin un conjunto de datos de entrenamiento externo.

Takeaways, Limitations

Takeaways:
Sugerir la posibilidad de mejorar la capacidad de inferencia de los modelos de lenguaje sin datos externos.
Proponer un método de aprendizaje eficiente a través de un marco de autoaprendizaje.
Aplicabilidad a varios tipos de problemas (matemáticas, codificación)
Un nuevo paradigma que supera las limitaciones del aprendizaje existente basado en conjuntos de datos masivos.
Limitations:
Límites de precisión del uso de la votación por mayoría como aproximación de la respuesta correcta
Ausencia de criterios objetivos de evaluación de la calidad de los problemas autogenerados
Necesidad de verificar el rendimiento de generalización para tipos de problemas complejos y diversos
Se necesitan más investigaciones sobre experimentos a gran escala y diversos modelos.
👍