Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ELV-Halluc : Analyse comparative des hallucinations d'agrégation sémantique dans la compréhension de longues vidéos

Quantification du biais induit par les étiquettes dans les auto-évaluations et les évaluations croisées des grands modèles linguistiques

R-4B : Encourager la capacité d'auto-réflexion à usage général dans les MLLM via le recuit bimode et l'apprentissage renforcé

EmbodiedOneVision : Pré-entraînement vision-texte-action entrelacés pour le contrôle robotique général

Modèles de langage et programmes logiques pour un raisonnement financier fiable

Robustesse à l'occlusion du CLIP pour la classification des véhicules militaires

SPGrasp : Synthèse spatio-temporelle de saisie pilotée par invite dans des scènes dynamiques

DrugReasoner : prédiction interprétable de l'approbation des médicaments grâce à un modèle de langage enrichi par le raisonnement

Réseau multimodal de fusion dynamique pour la détection du bien-être de la parole

IA agentique pour les logiciels : réflexions de la communauté du génie logiciel

CoViPAL : Élagage de jetons visuels contextualisés par couche pour les grands modèles vision-langage

L'affirmation de soi LLM peut être décomposée mécaniquement en composantes émotionnelles et logiques

ONG : Descente de gradient naturel orthogonal

Tri-Accel : optimisation adaptative de précision et élastique de la mémoire tenant compte de la courbure pour une utilisation efficace du GPU

GPT-OSS-20B : Analyse complète centrée sur le déploiement du modèle Open-Weight Mixture of Experts d'OpenAI

Relier la généralisation et la personnalisation dans la reconnaissance d'activité humaine via l'apprentissage en quelques étapes sur l'appareil

SparK : parcimonie non structurée tenant compte des requêtes avec élagage récupérable des canaux de cache KV

Optimisation adaptative et robuste de l'inférence LLM en cas d'incertitude de prédiction

NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace

FLAIR : représentations neuronales implicites sensibles à la fréquence et à la localité

Fonction d'évaluation hiérarchique : une approche multimétrique pour optimiser les modèles de prévision de la demande

Apprentissage de prototypes locaux et globaux avec transport optimal pour la détection et la localisation d'anomalies non supervisées

Correspondance de flux quantique

BConformeR : un conformateur basé sur l'échantillonnage mutuel pour la prédiction unifiée des sites de liaison d'anticorps continus et discontinus

Prédicateur : Système agentique papier-vidéo

UQGNN : Quantification de l'incertitude des réseaux neuronaux graphiques pour la prédiction spatio-temporelle multivariée

Grid2Guide : un petit modèle de langage activé par A* pour la navigation intérieure

ACD-CLIP : Découplage de la représentation et fusion dynamique pour la détection d'anomalies à tir nul

MAQuA : Questionnement adaptatif pour le dépistage multidimensionnel de la santé mentale à l'aide de la théorie de la réponse aux items

Classe sans biais pour la généralisation dans le diagnostic médical

Optimisation de la diffusion LLM avec des longueurs de pré-remplissage et de décodage variables

Grid-Agent : un système multi-agents basé sur LLM pour le contrôle du réseau électrique

CF3 : Champs de caractéristiques 3D compacts et rapides

MSC : un ensemble de données vidéo sur la faune marine avec segmentation ancrée et sous-titrage au niveau du clip

Une couche neurosymbolique inspirée de DbC pour une conception d'agent fiable

Analyse de convergence de l'agrégation-diffusion dans le réglage fin distribué compatible LoRA

Exploration de l'application des questions-réponses visuelles (QV) pour le suivi des activités en classe

AR-LIF : neurone à réinitialisation adaptative et à intégration et déclenchement de fuites pour les réseaux neuronaux à pointes

Un cadre catégorique de Markov pour la modélisation du langage

Vers un apprentissage en contexte optimisé par calcul et à plusieurs plans

Analyse comparative de la reconnaissance de la confidentialité des LLM pour la prise de décision des robots sociaux

Modèles de diffusion pour la prévision des séries chronologiques : une enquête

GPI-Net : réseau d'interaction parallèle guidé par la Gestalt via la cohérence géométrique orthogonale pour un enregistrement robuste des nuages de points

ExCyTIn-Bench : évaluation des agents LLM sur les enquêtes sur les cybermenaces

Superintelligence ascendante spécifique au domaine : un graphe de connaissances fiable est ce dont nous avons besoin

Classification fine des fractures du poignet chez l'enfant, tenant compte des données démographiques

Agentic-R1 : Raisonnement à double stratégie distillé

La conduite comme outil de diagnostic : évaluation cognitive basée sur des scénarios chez les conducteurs âgés à partir d'une vidéo de conduite

MedVAL : Vers une validation de textes médicaux de niveau expert avec des modèles linguistiques

NOCTIS : nouvelle segmentation d'instance basée sur un seuil cyclique d'objet

RALLY : Navigation attelée adaptative pilotée par LLM pour les essaims de drones agents

Distillation itérative pour un réglage fin guidé par la récompense des modèles de diffusion dans la conception biomoléculaire

Vers des réseaux neuronaux à pics efficaces et précis grâce à l'allocation adaptative des bits

Score modulé en flux pour la complétion du graphe de connaissances sémantique

TPTT : Transformer des Transformers pré-entraînés en Titans

Quel est l'intérêt de l'égalité dans l'apprentissage automatique ? Au-delà de l'égalité des chances

QGuard : Protection zéro-coup basée sur des questions pour la sécurité LLM multimodale

Un cadre théorique pour l'apprentissage contrastif auto-supervisé pour les données dépendantes continues

LLMEval-Med : une référence clinique concrète pour les masters de médecine validés par un médecin

Invite automatique SQL : une architecture économe en ressources pour la traduction de texte en SQL dans des environnements contraints

ÉTiquetage des données avec des références inconnues

FinS-Pilot : une référence pour les systèmes RAG financiers en ligne

Diagnostic de la fiabilité de l'édition d'images médicales guidée par texte

Accélération des hyperheuristiques avec la sélection d'opérateurs de chaîne de Markov et l'opérateur d'acceptation à seule détérioration

Un modèle de base polyvalent pour les tâches d'analyse d'images par résonance magnétique cardiaque ciné

Dois-je partager cette traduction ? Évaluation des retours de qualité pour évaluer la confiance des utilisateurs dans la traduction automatique.

Plusieurs agents LLM débattent d'un alignement culturel équitable

Notation automatisée des essais intégrant les annotations des systèmes de rétroaction automatisés

Les NeRF peuvent-ils voir sans caméra ?

DiffDecompose : décomposition par couche d'images alpha-composées via des transformateurs de diffusion

Le défi des dons cachés dans l'apprentissage par renforcement multi-agents

Comment puis-je publier mon benchmark LLM sans divulguer les vraies réponses ?

Cog-TiPRO : Affinement itératif des invites avec LLM pour détecter le déclin cognitif via des commandes d'assistant vocal longitudinales

Des jetons aux pensées : comment les LLM et les humains échangent la compression contre du sens

Dévoiler des descriptions multi-images pour la détection multilingue des troubles cognitifs légers via l'apprentissage contrastif

Vers un football coopératif et compétitif dans le monde réel avec des équipes de robots quadrupèdes

FreqSelect : reconstruction d'images IRMf en fonction de la fréquence

ViEEG : représentation neuronale visuelle hiérarchique pour le décodage EEG du cerveau

Dominance en un coup : attaque par empoisonnement des connaissances sur les systèmes de génération augmentée par récupération

Rechercher et affiner pendant la réflexion : recherche autonome et raisonnement augmenté des LLM

ManipBench : Analyse comparative des modèles vision-langage pour la manipulation robotique de bas niveau

Masques PINN : atténuation des variations de covariables internes dans les réseaux neuronaux basés sur la physique

ORBIT-2 : Mise à l'échelle des modèles exascale de la Fondation Vision pour la réduction d'échelle des conditions météorologiques et climatiques

FairPO : optimisation robuste des préférences pour un apprentissage multi-étiquettes équitable

Analyse automatisée des dessins d'ingénierie pour l'extraction d'informations structurées à l'aide d'un transformateur de compréhension de documents optimisé

GenTorrent : Mise à l'échelle d'un modèle linguistique volumineux avec un réseau superposé

Tilus : un langage de programmation GPGPU au niveau des tuiles pour le calcul de faible précision

Progent : Contrôle de privilèges programmable pour les agents LLM

Un algorithme basé sur le déploiement et une fonction de récompense pour l'allocation des ressources dans les processus métier

Agent-Q : Affiner les modèles de langage volumineux pour la génération et l'optimisation de circuits quantiques

Un modèle hybride de transformateur CNN entièrement convolutif pour la détection de maladies intrinsèquement interprétables à partir d'images du fond d'œil de la rétine

Plus de rentabilité : modélisation des récompenses de processus avec incertitude induite par l'entropie

LATTE-MV : Apprendre à anticiper les coups de tennis de table grâce aux vidéos monoculaires

Apprentissage inversé : effacement faiblement supervisé pour segmenter les nodules en échographie mammaire

Optimisation de la détection du cancer du sein dans les mammographies : une étude approfondie de l'apprentissage par transfert, de la réduction de la résolution et de la classification multi-vues

Démasquer les visuels trompeurs : analyse comparative des modèles linguistiques multimodaux volumineux sur la réponse aux questions graphiques trompeuses

Réponse aux questions du tableau général via la génération conjointe de formules de réponse

Découverte de compétences en monde ouvert à partir de démonstrations non segmentées

Voir un monde dans une étincelle de neurone : démêler les interférences multitâches pour la fusion de modèles sans formation

MOHPER : Cadre d'optimisation multi-objectifs hyperparamétrique pour système de récupération de données de commerce électronique

SparK : parcimonie non structurée tenant compte des requêtes avec élagage récupérable des canaux de cache KV

Created by

Haebom

Auteur

Huanxuan Liao, Yixing Xu, Shizhu He, Guanchen Li, Xuanwu Yin, Dong Li, Emad Barsoum, Jun Zhao, Kang Liu

Contour

Cet article propose SPARK, une nouvelle méthode qui exploite la parcimonie non structurée au niveau du canal pour résoudre le goulot d'étranglement du cache KV lors de l'inférence de texte long des modèles linguistiques à grande échelle (LLM). Alors que les méthodes de compression de cache KV temporelles existantes, telles que la suppression ou la fusion de jetons, ne tiennent pas compte des variations d'importance au niveau du canal, SPARK exploite le fait que l'importance du canal varie considérablement selon les requêtes et les emplacements. Il supprime les KV des canaux moins importants et les restaure dynamiquement lors du calcul des scores d'attention. SPARK est orthogonal aux techniques existantes de compression et de quantification KV, ce qui permet de les utiliser conjointement pour une accélération supplémentaire. De plus, en réduisant la redondance au niveau du canal, SPARK permet le traitement de séquences plus longues avec la même empreinte mémoire. Les résultats expérimentaux démontrent que SPARK réduit l'espace de stockage du cache KV de plus de 30 % par rapport aux méthodes existantes basées sur la suppression, tout en maintenant ou en améliorant la précision du modèle. Même avec un taux d'élagage agressif de 80 %, la dégradation des performances reste inférieure à 5 %.

Takeaways, Limitations_

•

Takeaways:

◦

Amélioration de l'efficacité de la compression du cache KV en prenant en compte les changements d'importance par canal.

◦

Minimise la dégradation des performances tout en réduisant l’utilisation de la mémoire de plus de 30 % par rapport aux méthodes existantes.

◦

Haute compatibilité avec d'autres techniques de compression et de quantification KV de manière plug-and-play qui ne nécessite aucune formation.

◦

Une méthode efficace pour traiter de longues séquences est présentée.

•

Limitations:

◦

Les informations actuellement disponibles sont insuffisantes pour évaluer les performances de généralisation de SPARK. Des résultats expérimentaux supplémentaires sur diverses architectures et tâches LLM sont nécessaires.

◦

Les critères permettant de déterminer l'importance d'un canal manquent de clarté. Le choix de ces critères peut avoir une incidence sur les performances.

◦

Bien que la dégradation des performances soit minime, même avec des taux d'élagage extrêmes, on ne peut exclure que l'algorithme soit sur-optimisé pour des tâches ou des ensembles de données spécifiques. Des expériences supplémentaires sont nécessaires.

Voir le PDF

Made with Slashpage