Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Modelos lingüísticos de autocuestionamiento

Created by
  • Haebom

Autor

Lili Chen, Mihir Prabhudesai, Katerina Fragkiadaki, Hao Liu, Deepak Pathak

Describir

Este artículo presenta una investigación sobre si los modelos de lenguaje a gran escala pueden mejorar su rendimiento generando preguntas y respuestas de forma independiente, sin datos externos. Para lograrlo, proponemos un marco de autoaprendizaje asimétrico denominado Modelo de Lenguaje de Autocuestionamiento (SQLM). SQLM consta de un proponente que genera preguntas y un solucionador que genera respuestas, entrenados mediante aprendizaje por refuerzo. El proponente busca generar problemas de dificultad adecuada, y el solucionador se juzga correcto mediante votación mayoritaria. Para los problemas de codificación, el proponente genera pruebas unitarias, que el solucionador verifica. Realizamos experimentos con tres puntos de referencia: multiplicación de tres dígitos, problemas algebraicos del punto de referencia OMEGA y problemas de programación de Codeforces, demostrando mejoras de rendimiento sin datos externos.

Takeaways, Limitations

Takeaways:
Demostramos que es posible mejorar la capacidad de inferencia de modelos de lenguaje a gran escala sin datos externos.
Presentando un método de aprendizaje eficiente en el uso de datos a través de un marco de autoaprendizaje.
Se ha verificado su aplicabilidad a varios tipos de problemas (matemáticas, codificación).
Limitations:
Utilizar la votación por mayoría como criterio para determinar las respuestas correctas no es una forma perfecta de determinar las respuestas correctas.
El rendimiento del marco propuesto puede variar según los puntos de referencia.
La necesidad de verificar la calidad de los datos autogenerados.
👍