Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

R-Stitch: Costura de trayectoria dinámica para un razonamiento eficiente

Created by
  • Haebom

Autor

Zhuokun Chen, Zeren Chen, Jiahao He, Mingkui Tan, Jianfei Cai, Bohan Zhuang

Describir

Este artículo propone R-Stitch, un novedoso método para reducir el coste computacional de la inferencia de Cadena de Pensamiento (CoT). La inferencia CoT mejora la capacidad de resolución de problemas de los modelos de lenguaje a gran escala (LLM), pero es computacionalmente costosa debido a su decodificación autorregresiva de largas secuencias de tokens. Las estrategias de aceleración existentes reducen la longitud de la secuencia mediante esquemas de parada temprana o compensación de compresión, o mejoran la velocidad de decodificación mediante decodificación predictiva utilizando modelos a pequeña escala. Sin embargo, la decodificación predictiva tiene una aceleración limitada cuando la concordancia entre los modelos a pequeña y gran escala es baja, y no aprovecha los beneficios potenciales de los modelos a pequeña escala para generar inferencias intermedias concisas. R-Stitch es un marco de decodificación híbrido basado en la confianza a nivel de token que alterna entre modelos de lenguaje a pequeña escala (SLM) y modelos de lenguaje a gran escala (LLM), utilizando LLM solo cuando la confianza del SLM cae por debajo de un umbral, manteniendo así la eficiencia y la precisión. Es independiente del modelo, no requiere entrenamiento y es compatible con los canales de decodificación estándar. Experimentos de referencia de inferencia matemática demuestran que R-Stitch reduce la latencia de inferencia hasta en un 85 % con una degradación mínima de la precisión.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para reducir efectivamente el costo computacional de la inferencia de CoT.
Se ha demostrado experimentalmente que la latencia de inferencia se puede reducir hasta en un 85% prácticamente sin degradación de la precisión.
Es independiente del modelo, no requiere capacitación y es compatible con canales de decodificación estándar, lo que lo hace muy práctico.
Limitations:
Tal vez se necesiten más investigaciones para establecer el umbral de confiabilidad del SLM.
Es posible que se requiera una evaluación más profunda del desempeño de generalización para diferentes tipos de problemas y modelos.
Si la diferencia de rendimiento entre SLM y LLM es grande, la mejora del rendimiento puede ser limitada.
👍