Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GenTorrent : Mise à l'échelle d'un modèle linguistique volumineux avec un réseau superposé

Created by
  • Haebom

Auteur

Fei Fang, Yifan Hua, Shengze Wang, Ruilin Zhou, Yi Liu, Chen Qian, Xiaoxue Zhang

Contour

Cet article propose GenTorrent, une superposition de services LLM exploitant les ressources informatiques des participants distribués. Cette solution vise à relever les défis de l'évolutivité liés à la mise à disposition de modèles linguistiques à grande échelle (LLM) open source et rentables, notamment ceux rencontrés par les petites organisations et les particuliers qui déploient et testent des innovations LLM. Inspiré des réseaux peer-to-peer, GenTorrent répond à quatre questions de recherche fondamentales : la configuration du réseau de superposition, la confidentialité des communications LLM, la distribution de superpositions économes en ressources et la vérification de la qualité de service. Les résultats de l'évaluation d'un prototype implémenté sur un ensemble de nœuds distribués démontrent que GenTorrent réduit la latence de plus de 50 % par rapport à une conception de base sans distribution de superposition, tandis que ses fonctionnalités de sécurité n'entraînent qu'une surcharge négligeable en termes de latence et de débit de service. Cette recherche suggère une nouvelle voie pour démocratiser et faire évoluer les futures capacités de service d'IA.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle architecture (GenTorrent) qui peut résoudre efficacement le problème d'évolutivité du service LLM dans un environnement distribué.
Présentation de la possibilité d'améliorer l'accessibilité LLM et de réduire les coûts grâce à un service distribué basé sur des réseaux P2P.
Nous avons vérifié les améliorations de performances qui ont réduit la latence de diffusion de plus de 50 % grâce à des techniques de diffusion par superposition.
La charge minimale des fonctionnalités de sécurité confirme leur potentiel de mise en œuvre pratique.
Limitations:
Une vérification supplémentaire de la stabilité et de l’évolutivité du prototype proposé dans un environnement d’exploitation réel est nécessaire.
Des expérimentations et des analyses approfondies sont nécessaires pour divers modèles LLM et conditions de charge de service.
Des recherches approfondies sont nécessaires sur les problèmes de confiance et de sécurité entre les nœuds dans les environnements distribués.
Il est nécessaire de préparer des contre-mesures pour diverses erreurs et défaillances qui peuvent survenir dans un environnement d’exploitation réel.
👍