Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los LLM tienen un corazón de piedra: desmitificando la capacidad de pensamiento blando de los grandes modelos de razonamiento

Created by
  • Haebom

Autor

Chunhung Wu, Jinliang Lu, Zixuan Ren, Gangqiang Hu, Zhi Wu, Dai Dai, Hua Wu

Describir

Este artículo analiza las capacidades de "pensamiento suave" de los modelos de lenguaje a gran escala (LLM) mediante diversas técnicas de exploración. Contrariamente a las expectativas convencionales sobre el pensamiento suave, observamos que los LLM se basan principalmente en los componentes más influyentes de los tokens suaves, lo que limita su exploración de rutas de inferencia. Esto es similar a la decodificación voraz, que oculta la ventaja de transmitir más información a través de tokens suaves. Para abordar este problema, introducimos aleatoriedad mediante estrategias de muestreo como el remuestreo de Dirichlet y la técnica Gumbel-Softmax, y verificamos experimentalmente su eficacia en ocho pruebas de inferencia. Confirmamos que la técnica Gumbel-Softmax logra el mejor rendimiento al proporcionar una aleatoriedad adecuada y una suavidad controlada.

Takeaways, Limitations

Takeaways: Demostramos que el razonamiento blando mediante tokens blandos puede reducirse a una simple decodificación voraz y sugerimos que el rendimiento puede mejorarse introduciendo aleatoriedad en las estrategias de muestreo (específicamente, Gumbel-Softmax). Esto profundiza nuestra comprensión del proceso de inferencia LLM y sugiere maneras de utilizar eficazmente el razonamiento blando.
Limitations: La eficacia de la estrategia de muestreo propuesta podría limitarse a un parámetro específico, y su generalización a otros tipos de LLM o tareas de inferencia requiere mayor investigación. Además, la introducción de aleatoriedad no siempre mejora el rendimiento, y determinar el nivel óptimo de aleatoriedad sigue siendo un desafío.
👍