Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje de abstracciones temporales mediante homomorfismos variacionales en MDP abstractos inducidos por opciones

Created by
  • Haebom

Autor

Chang Li, Yaren Zhang, Haoran Lv, Qiong Cao, Chao Xue, Xiaodong He

Describir

Este artículo presenta un marco para la inferencia implícita eficiente de modelos de lenguaje a gran escala (LLM). El método convencional de incitación CoT presenta la desventaja de ser computacionalmente costoso y lento, por lo que en este artículo proponemos un método para inferir en el espacio latente sin generar explícitamente el proceso computacional como texto. Para ello, modelamos el proceso de pensamiento latente como una acción abstracta (opción) extendida en el tiempo dentro de un marco de aprendizaje por refuerzo jerárquico, y aprendemos diversas opciones como incrustaciones latentes utilizando el algoritmo crítico de opciones de Markov variacional (VMOC). Extendemos la teoría del isomorfismo MDP continuo para demostrar que el aprendizaje de políticas en el espacio latente preserva la solución óptima del problema complejo original, y proponemos un procedimiento de arranque en frío que destila demostraciones de razonamiento humano en el espacio de opciones latentes utilizando datos de ajuste fino supervisado (SFT). Los resultados experimentales en pruebas de razonamiento lógico complejo y tareas de movimiento demuestran la eficacia del marco propuesto.

Takeaways, Limitations

Takeaways:
Un nuevo marco para la inferencia implícita eficiente en LLM
Proponer un método de inferencia basado en el espacio latente para resolver problemas de velocidad y coste computacional
Aprendizaje de procesos de pensamiento latente efectivos mediante el algoritmo crítico de opciones de Markov variacional (VMOC)
Establecimiento de una base teórica mediante la extensión de la teoría del homomorfismo MDP continuo
Propuesta de un procedimiento de arranque en frío utilizando datos de Ajuste Fino de Supervisión (SFT)
Demostró un desempeño superior en razonamiento lógico y tareas de control.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del marco propuesto.
Necesidad de evaluar la aplicabilidad y escalabilidad a varios tipos de problemas.
Necesidad de mejorar la estabilidad y eficiencia del aprendizaje del algoritmo VMOC
Se necesita investigación para asegurar la interpretabilidad y la transparencia del espacio potencial.
👍