Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Yilin Guan, Wenyue Hua, Qingfeng Lan, Sun Fei, Dujian Ding, Devang Acharya, Chi Wang, William Yang Wang
Contour
Cet article propose un cadre d'apprentissage par renforcement asynchrone en ligne, appelé Dynamic Predictive Planning (DSP), pour relever les défis liés à la latence élevée et aux coûts d'inférence lors du déploiement d'agents basés sur des modèles de langage à grande échelle. DSP permet une accélération sans perte et une réduction des coûts sans préparation préalable au déploiement, en utilisant explicitement un objectif commun optimisant la latence et les coûts de bout en bout. Les utilisateurs peuvent choisir entre une réponse rapide, un fonctionnement à faible coût ou une solution intermédiaire en ajustant un seul paramètre. Les résultats expérimentaux obtenus sur deux tests d'agents standard montrent que DSP atteint une efficacité comparable à la méthode d'accélération sans perte la plus rapide, tout en réduisant les coûts totaux de 30 % et les coûts inutiles jusqu'à 60 %. Le code et les données sont accessibles au public sur GitHub ( https://github.com/guanyilin428/Dynamic-Speculative-Planning) .
Takeaways, Limitations
•
Takeaways:
◦
Nous présentons une nouvelle méthode pour résoudre efficacement les problèmes de latence et de coût d'inférence des agents basés sur des modèles de langage à grande échelle.
◦
Obtenez simultanément une accélération sans perte et des économies de coûts.
◦
Donner aux utilisateurs le contrôle du compromis entre latence et coût.
◦
Amélioration efficace des performances sans formation préalable supplémentaire.
•
Limitations:
◦
Des recherches supplémentaires sont nécessaires pour déterminer la généralité de la méthode proposée et son applicabilité à divers modèles et tâches.
◦
Les expériences ont été limitées à deux repères standards, des expériences plus approfondies sont donc nécessaires.
◦
Manque d’analyse des coûts d’exploitation et de maintenance à long terme.