Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PRÉLUDE : Un référentiel conçu pour exiger une compréhension et un raisonnement globaux sur de longs contextes

Prédicateur : Système agentique papier-vidéo

Hallucination vs interprétation : repenser l'exactitude et la précision dans l'extraction de données assistée par l'IA pour la synthèse des connaissances

Prévisions météorologiques décentralisées via l'apprentissage automatique distribué et la validation de modèles basés sur la blockchain

L'IA biaisée améliore la prise de décision humaine mais réduit la confiance

Traduction personnalisée de caractéristiques pour la reconnaissance d'expressions : une méthode efficace d'adaptation de domaine sans source

Un cadre neurosymbolique pour la détection interprétable des attaques cognitives en réalité augmentée

IAD-R1 : Renforcer la cohérence du raisonnement dans la détection des anomalies industrielles

EvaDrive : Optimisation évolutive des politiques conflictuelles pour la conduite autonome de bout en bout

Comprendre théoriquement l'apprentissage contextuel basé sur les transformateurs pour optimiser le CSMA

ASPD : Déverrouiller le décodage série-parallèle adaptatif en explorant le parallélisme intrinsèque dans les LLM

BiasGym : Les biais fantastiques du LLM et comment les trouver (et les supprimer)

Yan : Génération de vidéos interactives fondamentales

M3-Net : un modèle MLP rentable et sans graphique pour la prévision du trafic

Réseaux corporels sans fil adaptatifs 6G pilotés par LLM : étude et cadre

L'illusion du progrès : réévaluation de la détection des hallucinations dans les masters de droit

Comprendre la dynamique de la capacité du modèle dans l'apprentissage continu

WeChat-YATT : un entraîneur RLHF simple, évolutif et équilibré

Génération de titres personnalisés améliorée grâce à la suppression des faux intérêts issus des commentaires implicites

Apprentissage dynamique du programme d'études tenant compte de la difficulté pour une reconnaissance multimodale robuste des émotions avec modalités manquantes

ÉChos de l'automatisation : l'utilisation croissante des LLM dans la rédaction de l'actualité

SIFThinker : mise au point d'images spatialement conscientes pour le raisonnement visuel

Shuffle-R1 : Cadre RL efficace pour les modèles de langage multimodaux volumineux via un mélange dynamique centré sur les données

Vers une IA agentique incarnée : revue et classification de l'autonomie et de l'interaction des robots pilotés par LLM et VLM

Position : Le modèle actuel de conférence sur l'IA est intenable ! Diagnostic de la crise des conférences centralisées sur l'IA

MSC : un ensemble de données vidéo sur la faune marine avec segmentation ancrée et sous-titrage au niveau du clip

Modèles de langage auto-questionnés

Exploration de l'application des questions-réponses visuelles (QV) pour le suivi des activités en classe

Oranits : attribution de missions et déchargement de tâches dans un ITS basé sur Open RAN à l'aide de l'apprentissage métaheuristique et du renforcement profond

DeepWriter : un assistant d'écriture multimodal basé sur des faits et une base de connaissances hors ligne

Sélection de coresets proportionnelle à la classe pour les données séparables par difficulté

Réponse aux questions spatiales sur l'entrepôt avec LLM Agent

CodeJudgeBench : analyse comparative des compétences LLM en tant que juge pour les tâches de codage

AmpLyze : un modèle d'apprentissage profond pour prédire la concentration hémolytique

EXAONE Path 2.0 : Modèle de base de pathologie avec supervision de bout en bout

GLM-4.1V-Thinking et GLM-4.5V : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

Pourquoi les LLM open source peinent-ils à analyser les données ? Une étude empirique systématique

Encodeur automatique de masque graphique sensible aux écarts

Attaques génératives tenant compte de la structure sémantique pour une transférabilité antagoniste améliorée

Comparaison quantitative des techniques de réglage fin pour les modèles de diffusion latente pré-entraînés dans la génération d'images SAR invisibles

PromptTSS : une approche basée sur l'invite pour la segmentation interactive de séries chronologiques multigranulaires

15 500 secondes : Classification allégée des drones grâce à EfficientNet et à un réglage fin léger

Les attaques rapides révèlent une suppression superficielle des connaissances dans les méthodes de désapprentissage

ÉLagage des données par maximisation de l'information

CCL-LGS : Apprentissage par code contrastif pour l'éclaboussure gaussienne de langage 3D

Préoccupations en matière de sécurité pour les grands modèles linguistiques : une enquête

L'optimisation quantique est-elle prête ? Vers la compression des réseaux neuronaux grâce au calcul quantique adiabatique

Démêler le TCHAD itératif

FreeKV : Optimisation de la récupération du cache KV pour une inférence LLM efficace

LaDi-WM : un modèle mondial basé sur la diffusion latente pour la manipulation prédictive

Rotation groupée et organisée : optimisation de la transformation de rotation pour la quantification gratuite

Bandits multi-armés à budget adaptatif pour l'IoT avec contraintes de ressources dynamiques

Transformateurs de vision dans l'agriculture de précision : une étude approfondie

Prévisions de séries chronologiques orientées vers les objectifs : conception du cadre de base

CAPTURe : Évaluation du raisonnement spatial dans les modèles de langage visuel via le comptage d'objets occultés

FinSage : un système RAG multi-aspects pour les réponses aux questions sur les déclarations financières

GraspClutter6D : un ensemble de données réelles à grande échelle pour une perception et une compréhension robustes dans les scènes encombrées

Hyperflux : l'élagage révèle l'importance des poids

ToolACE-R : formation itérative et perfectionnement adaptatif pour l'apprentissage des outils

UniOcc : une référence unifiée pour la prévision et la prédiction de l'occupation en conduite autonome

VectorFit : ajustement adaptatif des vecteurs singuliers et biaisés des modèles de base pré-entraînés

Décodage de bits : déverrouillage des cœurs de tenseurs pour les LLM à contexte long avec cache KV à faible bit

Analyse des sentiments explicables avec DeepSeek-R1 : performances, efficacité et apprentissage en quelques clics

Apprentissage continu pour de multiples modalités

Faire progresser MAPF vers le monde réel : un banc d'essai réaliste multi-agents évolutif (SMART)

Fusion de LED : atténuation des conflits sécurité-utilité lors de la fusion de modèles avec localisation-élection-disjointe

Amélioration de la généralisation inter-problèmes dans un solveur combinatoire neuronal basé sur la diffusion via l'adaptation du temps d'inférence

Partage rythmique : un paradigme bio-inspiré pour l'apprentissage adaptatif à zéro coup dans les réseaux neuronaux

Mesurer la diversité dans les ensembles de données synthétiques

Modélisation de la rétroaction différée avec fonctions d'influence

Roulette de déploiement : une approche d'inférence probabiliste pour la mise à l'échelle temporelle des LLM à l'aide de méthodes de Monte-Carlo basées sur les particules

CLoQ : Amélioration du réglage fin des LLM quantifiés via l'initialisation LoRA calibrée

Fleurs-SLU : une référence massivement multilingue pour la compréhension du langage parlé

EDO neuronales interprétables pour la découverte de réseaux de régulation génétique en cas de perturbations

Un transformateur léger avec attention croisée en phase uniquement pour une authentification biométrique invariante en fonction de l'éclairage

Comprendre les modèles de vision basés sur les transformateurs grâce à l'inversion

INSIGHT : Analyse d'images médicales explicables et faiblement supervisées

Visual SLAMMOT prenant en compte plusieurs modèles de mouvement

Une approche sans formation pour le transfert de style musical avec des modèles de diffusion latente

Optimisation multi-objectifs dans l'exploration de l'espace de conception du processeur : l'attention est tout ce dont vous avez besoin

DiRW : apprentissage de digraphes sensible au chemin pour l'hétérophilie

Diversification des comportements politiques grâce à la curiosité comportementale extrinsèque

Verbalisation de la mémoire épisodique à l'aide de représentations hiérarchiques de l'expérience robotique tout au long de la vie

Les réseaux neuronaux généralisent sur des données de faible complexité

Tests de cohérence basés sur les connaissances des grands modèles linguistiques

Algorithme d'ensemble de sécurité implicite pour un apprentissage par renforcement prouvé comme sûr

Un modèle explicable basé sur un transformateur pour la détection des e-mails d'hameçonnage : une approche basée sur un modèle de langage étendu

Réduction des coûts de communication pour le comptage de sous-graphes sous confidentialité différentielle locale via des fonctions de hachage

Erreurs de calcul et de raisonnement mathématiques par grands modèles de langage

OpenCUA : fondements ouverts pour les agents informatiques

Rapport technique Compass-Thinker-7B

TextQuests : Dans quelle mesure les LLM sont-ils performants en matière de jeux vidéo textuels ?

Sur la définition de l'intelligence

Au-delà de la précision : comment la sensibilité métacognitive de l'IA améliore la prise de décision assistée par l'IA

LAPO : internalisation de l'efficacité du raisonnement via l'optimisation des politiques adaptatives à la longueur

FAIRGAME : un cadre pour la reconnaissance des biais des agents IA utilisant la théorie des jeux

MedRep : Représentation de concepts médicaux pour les modèles de base des dossiers médicaux électroniques généraux

Un optimiseur à clé aléatoire pour l'optimisation combinatoire

Apprenants fédérés en formation croisée pour une généralisation robuste sous hétérogénéité des données

Exploiter les grands modèles linguistiques pour les jugements pertinents dans la recherche de dossiers juridiques

FreeKV : Optimisation de la récupération du cache KV pour une inférence LLM efficace

Created by

Haebom

Auteur

Guangda Liu, Chengwei Li, Zhenyu Ning, Minyi Guo, Jieru Zhao

Contour

Cet article propose un cadre de co-optimisation algorithme-système, FreeKV, pour relever les défis de déploiement des modèles de langage à grande échelle (LLM) avec des fenêtres de contexte de plus en plus grandes. Les longs contextes des LLM posent des défis de déploiement en raison de la taille croissante du cache KV. Les méthodes existantes de compression, d'élimination et de recherche du cache KV souffrent d'une précision et d'une efficacité médiocres. FreeKV optimise le processus de sélection et de rappel des KV grâce à une recherche prédictive et des corrections précises. Il minimise le transfert de données et améliore l'efficacité grâce à une disposition hybride des KV entre la mémoire CPU et GPU et un rappel en continu à double tampon. Les résultats expérimentaux démontrent que FreeKV atteint une accélération jusqu'à 13 fois supérieure à la méthode de recherche KV la plus performante, tout en maintenant une précision quasi-nulle dans divers scénarios et modèles.

Takeaways, Limitations_

•

Takeaways:

◦

Une solution efficace au problème de contexte long de LLM : FreeKV répond efficacement aux défis du déploiement de LLM en raison de la taille croissante du cache KV.

◦

Améliorer la vitesse sans compromettre la précision : en surmontant les limites des méthodes existantes, nous améliorons simultanément la vitesse et la précision.

◦

Intégration de l’optimisation algorithmique et systémique : Créer des synergies grâce à une optimisation qui prend en compte à la fois les aspects algorithmiques et systémiques.

•

Limitations:

◦

Manque de détails spécifiques sur la mise en œuvre et l’application réelles de FreeKV : Le document peut manquer d’une description détaillée du processus de mise en œuvre et d’application de FreeKV.

◦

La généralisabilité à travers différentes architectures et tailles de LLM doit être vérifiée : Étant donné que seuls les résultats expérimentaux d'un environnement limité sont présentés, la généralisabilité à travers différents environnements doit être vérifiée plus en détail.

◦

Manque de considération pour l’efficacité énergétique : Bien qu’il existe une analyse des améliorations de vitesse, il peut y avoir un manque de discussion sur les aspects d’efficacité énergétique.

Voir le PDF

Made with Slashpage