Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Tira los dados y mira antes de saltar: más allá de los límites creativos de la predicción del próximo token

Created by
  • Haebom

Autor

Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan

Describir

Este artículo diseña tareas algorítmicas mínimas que abstraen tareas abiertas del mundo real para medir cuantitativamente las limitaciones creativas de los modelos lingüísticos existentes. Estas tareas requieren pasos de planificación implícitos, abiertos y probabilísticos, ya sea descubriendo nuevas conexiones en un grafo de conocimiento abstracto (p. ej., juegos de palabras, analogías, investigación) o construyendo nuevos patrones (p. ej., problemas matemáticos o el diseño de nuevas proteínas). Argumentamos empírica y conceptualmente contra la miopía del aprendizaje de tokens y argumentamos que los enfoques multitoken, como el entrenamiento sin profesor y los modelos de difusión, son superiores en la generación de resultados diversos y originales. Además, encontramos que el condicionamiento de semillas, que inyecta ruido en la capa de entrada para inducir aleatoriedad sin comprometer la consistencia, es tan efectivo como el muestreo de temperatura en la capa de salida, y bajo ciertas condiciones, incluso superior. En conclusión, este estudio proporciona un entorno de prueba mínimo y basado en principios para analizar las capacidades creativas abiertas y ofrece nuevos argumentos más allá del aprendizaje de tokens y el muestreo de temperatura.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo conjunto de tareas algorítmicas para evaluar habilidades creativas abiertas.
Demostramos las limitaciones del aprendizaje de tokens y demostramos la superioridad de un enfoque de múltiples tokens.
Proponemos que el acondicionamiento de la capa de entrada es una forma efectiva de lograr simultáneamente aleatoriedad y consistencia.
Presenta nuevas perspectivas y direcciones para la investigación sobre la creatividad de los modelos lingüísticos.
Limitations:
La tarea algorítmica presentada puede no reflejar perfectamente las complejas tareas creativas del mundo real.
Debido a las limitaciones en el conjunto de datos y el modelo utilizado, se requiere una mayor validación de la generalización.
La accesibilidad puede ser limitada ya que solo se divulga una parte del código.
👍