Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SACL : Comprendre et combattre les biais textuels dans la recherche de code grâce au reclassement et à la localisation sémantiquement augmentés

Vers des schémas de libération de poids de modèles prouvables (non)sécurisés

Graphique de scène sémantique pour l'explication des images échographiques et le guidage de l'analyse

Ensemble de données IndieFake : un ensemble de données de référence pour la détection des deepfakes audio

Ce ne sont pas toutes les fonctionnalités que vous recherchez : un goulot d'étranglement fondamental dans la préformation supervisée

Les stratégies d'apprentissage contextuel émergent de manière rationnelle

Faites semblant jusqu'à y arriver : la modélisation des récompenses comme prédiction discriminante

Prétraitement sémantique pour l'analyse des logiciels malveillants basée sur LLM

PCDVQ : amélioration de la quantification vectorielle pour les grands modèles linguistiques via le découplage des coordonnées polaires

TracLLM : un cadre générique pour l'attribution de LLM à contexte long

TaxaDiffusion : modèle de diffusion progressivement formé pour la génération d'espèces à granularité fine

Correspondance de flux composite pour l'apprentissage par renforcement avec des données de dynamique décalée

Explicabilité des grands modèles linguistiques à l'aide de SMILE : interprétabilité statistique indépendante du modèle avec explications locales

Thinkless : LLM apprend quand réfléchir

A3 : un cadre d'approximation analytique de bas rang pour l'attention

Rechercher et affiner pendant la réflexion : recherche autonome et raisonnement augmenté des LLM

JointDiT : Amélioration de la modélisation des joints en profondeur RVB avec des transformateurs de diffusion

Correspondance énergétique : unification de la correspondance des flux et des modèles énergétiques pour la modélisation générative

Analyse des sentiments basée sur l'IA : optimiser la valeur commerciale dans le secteur du commerce électronique

Vers une optimisation adaptative basée sur la mémoire pour une récupération améliorée et une génération augmentée

AirCache : activation de la compression du cache KV de pertinence intermodale pour une inférence efficace de modèles vision-langage à grande échelle

Les LLM seront-ils des professionnels de l'investissement en fonds ? DeepFund : une perspective en direct

Révéler les représentations neuronales d'ordre supérieur de l'incertitude avec le modèle d'estimation du bruit par diffusion basée sur le renforcement (NERD)

Zero-TIG : amélioration vidéo en basse lumière guidée par l'éclairage Zero-Shot, tenant compte de la cohérence temporelle

PP-DocBee : Améliorer la compréhension des documents multimodaux grâce à un ensemble d'astuces

CREStE : Navigation évolutive sans mappage avec priori d'échelle Internet et guidage contrefactuel

Marchés avec agents hétérogènes : dynamique et survie des apprenants bayésiens et sans regret

Décodage spéculatif guidé par la récompense pour un raisonnement LLM efficace

UP-VLA : un modèle unifié de compréhension et de prédiction pour les agents incarnés

DisCoPatch : maîtriser les statistiques de lots pilotées par des adversaires pour une meilleure détection des messages hors distribution

Matérialiste : Édition basée sur la physique à l'aide du rendu inverse d'une seule image

Apprentissage de la représentation des valeurs de laboratoire via des auto-encodeurs masqués

Politique d'indice lagrangien pour les bandits agités avec récompense moyenne

SIDA : Détection, localisation et explication des deepfakes d'images sur les réseaux sociaux avec un grand modèle multimodal

InfiniCube : Génération de scènes de conduite 3D dynamiques, illimitées et contrôlables, avec des modèles vidéo guidés par le monde

Génération réversible pré-entraînée comme apprentissage de représentation visuelle non supervisé

MvKeTR : Génération de rapports de tomodensitométrie thoracique avec perception multi-vues et amélioration des connaissances

GASP : Génération efficace de suffixes contradictoires en boîte noire pour le jailbreaking des LLM

ToolScan : une référence pour caractériser les erreurs dans les LLM d'utilisation d'outils

Rappel et raffinement : un cadre d'adaptation de domaine ouvert, simple mais efficace et sans source

InterFormer : Apprentissage interactif hétérogène efficace pour la prédiction du taux de clics

Encourager les phonèmes : améliorer le multilinguisme des LLM pour les langues non latines

Vision par ordinateur avancée pour extraire des trajectoires de véhicules géoréférencées à partir d'images de drones

Calibrage rapide du gyroscope : une approche d'apprentissage profond

HERMES : compréhension temporelle-cohérente à long terme avec épisodes et sémantique

Une architecture EXCELLENTE pour les problèmes de graphes basés sur les bords comme TSP

ClimateIQA : un nouvel ensemble de données et une nouvelle référence pour faire progresser les modèles vision-langage dans l'analyse des anomalies météorologiques

MockLLM : un cadre de collaboration comportementale multi-agents pour la recherche d'emploi et le recrutement en ligne

Mes données sont-elles dans votre modèle d'IA ? Test d'inférence d'appartenance avec application aux images faciales

PuriDefense : purification antagoniste implicite locale aléatoire pour la défense contre les attaques basées sur des requêtes de type boîte noire

L'apprentissage continu comme apprentissage par renforcement contraint par le calcul

Génération d'images efficace avec des têtes d'attention variadique

Services de transport et de livraison intelligents avec véhicules électriques : tirer parti de la recharge bidirectionnelle pour optimiser les profits

Des souvenirs aux cartes : mécanismes d'apprentissage par renforcement contextuel chez Transformers

Les graphiques rencontrent les agents d'IA : taxonomie, progrès et opportunités futures

Apprivoiser l'indompté : récupération de connaissances et raisonnement basés sur des graphes pour les MLLM afin de conquérir l'inconnu

Exploration des effets des cinq grandes personnalités et des capacités de l'IA dans les dialogues de négociation simulés par LLM

Méthode Doppelganger : rupture de la cohérence des rôles dans l'agent LLM via une attaque antagoniste transférable basée sur des invites

Metis-RISE : le RL incite et le SFT améliore l'apprentissage par modèle de raisonnement multimodal

Diffusion rapide d'arbres de Monte-Carlo : accélération 100 fois supérieure grâce à la planification parallèle clairsemée

NFISiS : Nouvelles perspectives sur les systèmes d'inférence floue pour la prévision des énergies renouvelables

L'état des grands modèles linguistiques pour les langues africaines : progrès et défis

Structurer le non structuré : un système multi-agents pour extraire et interroger les indicateurs clés de performance (KPI) et les orientations financières

Super co-alignement pour une société symbiotique durable

Améliorer la coordination homme-IA grâce à la formation contradictoire en ligne et aux modèles génératifs

Plateforme WiS : Améliorer l'évaluation des systèmes multi-agents basés sur LLM grâce à l'analyse basée sur les jeux

Révision de l'apprentissage : validation concrète de l'apprentissage continu préservant la confidentialité dans les établissements médicaux

Prédiction vidéo égocentrique conditionnée par le corps entier

MTSBench : analyse comparative de la détection d'anomalies de séries chronologiques multivariées et de la sélection de modèles à grande échelle

HalluSegBench : Raisonnement visuel contrefactuel pour l'évaluation des hallucinations de segmentation

WorldVLA : Vers un modèle mondial d'action autorégressive

« Quoi de neuf, docteur ? » : Analyse de la façon dont les utilisateurs recherchent des informations de santé dans des ensembles de données d'IA conversationnelle à grande échelle

Compréhension de Potemkine dans les grands modèles linguistiques

SkLEP : un référentiel de compréhension générale de la langue slovaque

Modélisation et simulation basées sur l'exploration de processus pour améliorer le diagnostic des pannes dans les systèmes cyber-physiques

TITAN : Apprentissage adaptatif et contradictoire basé sur des jetons de requête

SmoothSinger : un modèle de diffusion conditionnelle pour la synthèse vocale avec une architecture multi-résolution

Optimisation des méthodes Runge-Kutta d'ordre 4 : une approche heuristique dynamique pour l'efficacité et un faible stockage

Masters de compétences en leadership (LML) basés sur la connaissance du domaine pour la détection des fraudes et des dérives conceptuelles

Adaptation bayésienne évolutive de bas rang de grands modèles de langage via l'inférence de sous-espace variationnel stochastique

Exploiter LLM - Compréhension assistée des requêtes pour une récupération en direct - Génération augmentée

Réseau d'attention graphique sensible au temps pour la détection des fraudes aux transactions de cryptomonnaie

Faites attention aux petits poids

Recommandations de produits personnalisées et en temps réel pour les grandes plateformes de commerce électronique

RQdia : régularisation des distributions de valeurs Q par augmentation d'image

CA-I2P : réseau d'enregistrement adaptatif aux canaux avec sélection optimale globale

Une revue systématique de la co-créativité homme-IA

Reconnaissance holistique des phases chirurgicales avec modèles d'espace d'état dépendant des entrées hiérarchiques

Sur l'approximation polynomiale profonde pondérée uniforme

Explorer les compromis de conception d'adaptateur pour la génération de musique à faibles ressources

Détection d'expressions référentes dans un dialogue visuellement fondé avec des modèles de langage autorégressifs

Les petits encodeurs peuvent rivaliser avec les grands décodeurs pour détecter la mise à la terre

Autoencodeurs variationnels hypersphériques utilisant une distribution de Cauchy sphérique efficace

Intégration des données acoustiques des véhicules pour une meilleure gestion du trafic urbain : une étude sur la classification de la vitesse à Suzhou

DiLoCoX : un cadre de formation à grande échelle et à faible communication pour les clusters décentralisés

Agent-RewardBench : Vers une référence unifiée pour la modélisation des récompenses en termes de perception, de planification et de sécurité chez les agents multimodaux du monde réel

De la blockchain à la macroéconomie : évaluer l'importance de la diversité des sources de données dans les prévisions du marché des cryptomonnaies

$T^3$ : Réparation automatique de programmes basée sur des arbres multi-niveaux avec de grands modèles de langage

BitMark pour Infinity : Filigranage de modèles génératifs d'images autorégressives au niveau du bit

Compression KV sensible aux tâches pour une compréhension rentable des vidéos longues

AirCache : activation de la compression du cache KV de pertinence intermodale pour une inférence efficace de modèles vision-langage à grande échelle

Created by

Haebom

Auteur

Kai Huang, Hao Zou, Bochen Wang, Ye Xi, Zhen Xie, Hao Wang

Contour

Dans cet article, nous proposons AirCache, une nouvelle méthode de compression du cache KV permettant d'accélérer l'inférence des modèles de langage visuel à grande échelle (LVLM). Bien que les LVLM offrent d'excellentes capacités d'inférence et de généralisation, ils engendrent des coûts de calcul importants pour le traitement de nombreux jetons visuels et la génération de longs résultats contextuels, ce qui sollicite excessivement le cache KV. AirCache étudie systématiquement les corrélations entre les jetons visuels et textuels au sein du mécanisme d'attention des LVLM, détecte une redondance significative dans les jetons visuels mis en cache et les supprime stratégiquement, améliorant ainsi significativement la vitesse de génération de contexte tout en maintenant les performances du modèle. Nous introduisons une fenêtre d'observation d'élite pour évaluer les composants visuels importants et développons une stratégie d'allocation budgétaire adaptative couche par couche qui exploite la force et l'asymétrie des distributions d'importance des jetons, démontrant une meilleure efficacité que l'allocation uniforme conventionnelle. Grâce à des évaluations complètes sur plusieurs LVLM et benchmarks, nous démontrons qu'AirCache atteint des performances similaires à celles du cache complet tout en ne conservant que 10 % du cache KV visuel, réduisant ainsi la latence de décodage de 29 % à 66 % selon la taille des lots et la longueur des invites de saisie. Plus précisément, l'avantage en termes de performances par rapport aux méthodes existantes augmente à mesure que le taux de rétention du cache diminue.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons une méthode efficace de compression du cache KV pour améliorer la vitesse d'inférence des LVLM.

◦

Nous démontrons que l’analyse des corrélations entre les jetons visuels et textuels peut améliorer l’efficacité de la compression du cache.

◦

Nous démontrons que l’utilisation du cache peut être optimisée grâce à une stratégie d’allocation budgétaire adaptative couche par couche.

◦

Nous vérifions expérimentalement les améliorations de performances sur divers LVLM et benchmarks.

•

Limitations:

◦

Les améliorations de performances d'AirCache peuvent se limiter à des LVLM et des benchmarks spécifiques. Leur généralisation à d'autres modèles ou ensembles de données nécessite des études plus approfondies.

◦

La conception de la fenêtre d’observation de l’élite et de la stratégie d’allocation budgétaire hiérarchique adaptative est basée sur des résultats empiriques et peut nécessiter un soutien théorique supplémentaire.

◦

Des recherches supplémentaires sont nécessaires pour étendre la plage au-delà de laquelle la compression du cache n’entraîne pas de dégradation des performances.

Voir le PDF

Made with Slashpage