Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Planificación dinámica de agentes especulativos

Created by
  • Haebom

Autor

Yilin Guan, Wenyue Hua, Qingfeng Lan, Sun Fei, Dujian Ding, Devang Acharya, Chi Wang, William Yang Wang

Describir

Este documento propone un marco de aprendizaje de refuerzo en línea asíncrono denominado Planificación Predictiva Dinámica (DSP) para abordar los desafíos de la alta latencia y los costos de inferencia en la implementación de agentes basados ​​en modelos de lenguaje a gran escala. DSP logra una aceleración sin pérdidas y una reducción de costos sin preparación adicional previa a la implementación, utilizando explícitamente un objetivo conjunto que optimiza la latencia y el costo de extremo a extremo. Los usuarios pueden elegir entre una respuesta rápida, una operación de bajo costo o un punto intermedio ajustando un solo parámetro. Los resultados experimentales en dos pruebas de referencia de agentes estándar muestran que DSP logra una eficiencia comparable al método de aceleración sin pérdidas más rápido, a la vez que reduce los costos totales en un 30% y los costos innecesarios en hasta un 60%. El código y los datos están disponibles públicamente en GitHub ( https://github.com/guanyilin428/Dynamic-Speculative-Planning) .

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para abordar eficazmente los problemas de latencia y costo de inferencia de agentes basados ​​en modelos de lenguaje a gran escala.
Consiga una aceleración sin pérdidas y ahorro de costes simultáneamente.
Brindar a los usuarios control sobre el equilibrio entre latencia y costo.
Mejora efectiva del rendimiento sin entrenamiento previo adicional.
Limitations:
Se necesitan más investigaciones para determinar la generalidad del método propuesto y su aplicabilidad a varios modelos y tareas.
Los experimentos se limitaron a dos puntos de referencia estándar, por lo que se necesitan experimentos más amplios.
Falta de análisis de los costos de operación y mantenimiento a largo plazo.
👍