Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PRÉLUDE : Un référentiel conçu pour exiger une compréhension et un raisonnement globaux sur de longs contextes

Prédicateur : Système agentique papier-vidéo

Hallucination vs interprétation : repenser l'exactitude et la précision dans l'extraction de données assistée par l'IA pour la synthèse des connaissances

Prévisions météorologiques décentralisées via l'apprentissage automatique distribué et la validation de modèles basés sur la blockchain

L'IA biaisée améliore la prise de décision humaine mais réduit la confiance

Traduction personnalisée de caractéristiques pour la reconnaissance d'expressions : une méthode efficace d'adaptation de domaine sans source

Un cadre neurosymbolique pour la détection interprétable des attaques cognitives en réalité augmentée

IAD-R1 : Renforcer la cohérence du raisonnement dans la détection des anomalies industrielles

EvaDrive : Optimisation évolutive des politiques conflictuelles pour la conduite autonome de bout en bout

Comprendre théoriquement l'apprentissage contextuel basé sur les transformateurs pour optimiser le CSMA

ASPD : Déverrouiller le décodage série-parallèle adaptatif en explorant le parallélisme intrinsèque dans les LLM

BiasGym : Les biais fantastiques du LLM et comment les trouver (et les supprimer)

Yan : Génération de vidéos interactives fondamentales

M3-Net : un modèle MLP rentable et sans graphique pour la prévision du trafic

Réseaux corporels sans fil adaptatifs 6G pilotés par LLM : étude et cadre

L'illusion du progrès : réévaluation de la détection des hallucinations dans les masters de droit

Comprendre la dynamique de la capacité du modèle dans l'apprentissage continu

WeChat-YATT : un entraîneur RLHF simple, évolutif et équilibré

Génération de titres personnalisés améliorée grâce à la suppression des faux intérêts issus des commentaires implicites

Apprentissage dynamique du programme d'études tenant compte de la difficulté pour une reconnaissance multimodale robuste des émotions avec modalités manquantes

ÉChos de l'automatisation : l'utilisation croissante des LLM dans la rédaction de l'actualité

SIFThinker : mise au point d'images spatialement conscientes pour le raisonnement visuel

Shuffle-R1 : Cadre RL efficace pour les modèles de langage multimodaux volumineux via un mélange dynamique centré sur les données

Vers une IA agentique incarnée : revue et classification de l'autonomie et de l'interaction des robots pilotés par LLM et VLM

Position : Le modèle actuel de conférence sur l'IA est intenable ! Diagnostic de la crise des conférences centralisées sur l'IA

MSC : un ensemble de données vidéo sur la faune marine avec segmentation ancrée et sous-titrage au niveau du clip

Modèles de langage auto-questionnés

Exploration de l'application des questions-réponses visuelles (QV) pour le suivi des activités en classe

Oranits : attribution de missions et déchargement de tâches dans un ITS basé sur Open RAN à l'aide de l'apprentissage métaheuristique et du renforcement profond

DeepWriter : un assistant d'écriture multimodal basé sur des faits et une base de connaissances hors ligne

Sélection de coresets proportionnelle à la classe pour les données séparables par difficulté

Réponse aux questions spatiales sur l'entrepôt avec LLM Agent

CodeJudgeBench : analyse comparative des compétences LLM en tant que juge pour les tâches de codage

AmpLyze : un modèle d'apprentissage profond pour prédire la concentration hémolytique

EXAONE Path 2.0 : Modèle de base de pathologie avec supervision de bout en bout

GLM-4.1V-Thinking et GLM-4.5V : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

Pourquoi les LLM open source peinent-ils à analyser les données ? Une étude empirique systématique

Encodeur automatique de masque graphique sensible aux écarts

Attaques génératives tenant compte de la structure sémantique pour une transférabilité antagoniste améliorée

Comparaison quantitative des techniques de réglage fin pour les modèles de diffusion latente pré-entraînés dans la génération d'images SAR invisibles

PromptTSS : une approche basée sur l'invite pour la segmentation interactive de séries chronologiques multigranulaires

15 500 secondes : Classification allégée des drones grâce à EfficientNet et à un réglage fin léger

Les attaques rapides révèlent une suppression superficielle des connaissances dans les méthodes de désapprentissage

ÉLagage des données par maximisation de l'information

CCL-LGS : Apprentissage par code contrastif pour l'éclaboussure gaussienne de langage 3D

Préoccupations en matière de sécurité pour les grands modèles linguistiques : une enquête

L'optimisation quantique est-elle prête ? Vers la compression des réseaux neuronaux grâce au calcul quantique adiabatique

Démêler le TCHAD itératif

FreeKV : Optimisation de la récupération du cache KV pour une inférence LLM efficace

LaDi-WM : un modèle mondial basé sur la diffusion latente pour la manipulation prédictive

Rotation groupée et organisée : optimisation de la transformation de rotation pour la quantification gratuite

Bandits multi-armés à budget adaptatif pour l'IoT avec contraintes de ressources dynamiques

Transformateurs de vision dans l'agriculture de précision : une étude approfondie

Prévisions de séries chronologiques orientées vers les objectifs : conception du cadre de base

CAPTURe : Évaluation du raisonnement spatial dans les modèles de langage visuel via le comptage d'objets occultés

FinSage : un système RAG multi-aspects pour les réponses aux questions sur les déclarations financières

GraspClutter6D : un ensemble de données réelles à grande échelle pour une perception et une compréhension robustes dans les scènes encombrées

Hyperflux : l'élagage révèle l'importance des poids

ToolACE-R : formation itérative et perfectionnement adaptatif pour l'apprentissage des outils

UniOcc : une référence unifiée pour la prévision et la prédiction de l'occupation en conduite autonome

VectorFit : ajustement adaptatif des vecteurs singuliers et biaisés des modèles de base pré-entraînés

Décodage de bits : déverrouillage des cœurs de tenseurs pour les LLM à contexte long avec cache KV à faible bit

Analyse des sentiments explicables avec DeepSeek-R1 : performances, efficacité et apprentissage en quelques clics

Apprentissage continu pour de multiples modalités

Faire progresser MAPF vers le monde réel : un banc d'essai réaliste multi-agents évolutif (SMART)

Fusion de LED : atténuation des conflits sécurité-utilité lors de la fusion de modèles avec localisation-élection-disjointe

Amélioration de la généralisation inter-problèmes dans un solveur combinatoire neuronal basé sur la diffusion via l'adaptation du temps d'inférence

Partage rythmique : un paradigme bio-inspiré pour l'apprentissage adaptatif à zéro coup dans les réseaux neuronaux

Mesurer la diversité dans les ensembles de données synthétiques

Modélisation de la rétroaction différée avec fonctions d'influence

Roulette de déploiement : une approche d'inférence probabiliste pour la mise à l'échelle temporelle des LLM à l'aide de méthodes de Monte-Carlo basées sur les particules

CLoQ : Amélioration du réglage fin des LLM quantifiés via l'initialisation LoRA calibrée

Fleurs-SLU : une référence massivement multilingue pour la compréhension du langage parlé

EDO neuronales interprétables pour la découverte de réseaux de régulation génétique en cas de perturbations

Un transformateur léger avec attention croisée en phase uniquement pour une authentification biométrique invariante en fonction de l'éclairage

Comprendre les modèles de vision basés sur les transformateurs grâce à l'inversion

INSIGHT : Analyse d'images médicales explicables et faiblement supervisées

Visual SLAMMOT prenant en compte plusieurs modèles de mouvement

Une approche sans formation pour le transfert de style musical avec des modèles de diffusion latente

Optimisation multi-objectifs dans l'exploration de l'espace de conception du processeur : l'attention est tout ce dont vous avez besoin

DiRW : apprentissage de digraphes sensible au chemin pour l'hétérophilie

Diversification des comportements politiques grâce à la curiosité comportementale extrinsèque

Verbalisation de la mémoire épisodique à l'aide de représentations hiérarchiques de l'expérience robotique tout au long de la vie

Les réseaux neuronaux généralisent sur des données de faible complexité

Tests de cohérence basés sur les connaissances des grands modèles linguistiques

Algorithme d'ensemble de sécurité implicite pour un apprentissage par renforcement prouvé comme sûr

Un modèle explicable basé sur un transformateur pour la détection des e-mails d'hameçonnage : une approche basée sur un modèle de langage étendu

Réduction des coûts de communication pour le comptage de sous-graphes sous confidentialité différentielle locale via des fonctions de hachage

Erreurs de calcul et de raisonnement mathématiques par grands modèles de langage

OpenCUA : fondements ouverts pour les agents informatiques

Rapport technique Compass-Thinker-7B

TextQuests : Dans quelle mesure les LLM sont-ils performants en matière de jeux vidéo textuels ?

Sur la définition de l'intelligence

Au-delà de la précision : comment la sensibilité métacognitive de l'IA améliore la prise de décision assistée par l'IA

LAPO : internalisation de l'efficacité du raisonnement via l'optimisation des politiques adaptatives à la longueur

FAIRGAME : un cadre pour la reconnaissance des biais des agents IA utilisant la théorie des jeux

MedRep : Représentation de concepts médicaux pour les modèles de base des dossiers médicaux électroniques généraux

Un optimiseur à clé aléatoire pour l'optimisation combinatoire

Apprenants fédérés en formation croisée pour une généralisation robuste sous hétérogénéité des données

Exploiter les grands modèles linguistiques pour les jugements pertinents dans la recherche de dossiers juridiques

Décodage de bits : déverrouillage des cœurs de tenseurs pour les LLM à contexte long avec cache KV à faible bit

Created by

Haebom

Auteur

Dayou Du, Shijie Cao, Jianyi Cheng, Luo Mai, Ting Cao, Mao Yang

Contour

Cet article propose BitDecoding, un nouveau système d'inférence exploitant les caches KV low-bit pour répondre aux besoins croissants en mémoire et en bande passante de l'inférence des modèles de langage à grande échelle (LLM) à contexte long. BitDecoding permet un décodage efficace des caches KV low-bit en exploitant conjointement les cœurs CUDA et Tensor. Il inclut des techniques telles que la dérivation automatique de dispositions optimisées pour l'utilisation et la déquantification des cœurs Tensor via des stratégies de parallélisation au niveau de la chaîne. Il offre également un support système unifié grâce à un module de transformation de requêtes prenant en charge diverses variantes d'attention, un noyau de quantification haute performance prenant en charge la mise à l'échelle tensorielle et canalitaire utilisée dans divers algorithmes de quantification, et un noyau de déquantification avec un pipeline défini par logiciel qui coordonne l'exécution de CUDA et de Tensor Core. Les évaluations sur RTX 4090, A100 et H100 démontrent que BitDecoding offre des accélérations de décodage jusqu'à 7,5, 4,8 et 8,9 fois supérieures à celles de FP16 FlashDecoding-v2, et surpasse jusqu'à 4,3 fois celles du système QServe à faible débit de pointe. Des améliorations significatives sont également constatées pour la génération de contextes longs, avec notamment une réduction jusqu'à 3 fois de la latence de décodage par lot unique sur LLaMA-3.1-8B avec des contextes de 128 000. Le code est disponible sur GitHub.

Takeaways, Limitations_

•

Takeaways:

◦

Nous avons considérablement amélioré les performances du décodage du cache KV à faible bit en exploitant les cœurs CUDA et les cœurs Tensor en parallèle.

◦

Nous avons construit un système intégré qui offre une compatibilité avec divers algorithmes LLM et de quantification.

◦

Nous avons considérablement amélioré la vitesse et l’efficacité de l’inférence LLM à long terme, augmentant ainsi son potentiel d’applications pratiques.

◦

Les résultats expérimentaux démontrent clairement la supériorité de la méthode proposée.

•

Limitations:

◦

Optimisé pour une architecture GPU spécifique, les performances sur d'autres architectures peuvent varier.

◦

Des recherches supplémentaires pourraient être nécessaires sur les performances de généralisation de différents modèles LLM.

◦

Une évaluation des performances pour des longueurs de contexte plus grandes est nécessaire.

Voir le PDF

Made with Slashpage