Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ELV-Halluc : Analyse comparative des hallucinations d'agrégation sémantique dans la compréhension de longues vidéos

Quantification du biais induit par les étiquettes dans les auto-évaluations et les évaluations croisées des grands modèles linguistiques

R-4B : Encourager la capacité d'auto-réflexion à usage général dans les MLLM via le recuit bimode et l'apprentissage renforcé

EmbodiedOneVision : Pré-entraînement vision-texte-action entrelacés pour le contrôle robotique général

Modèles de langage et programmes logiques pour un raisonnement financier fiable

Robustesse à l'occlusion du CLIP pour la classification des véhicules militaires

SPGrasp : Synthèse spatio-temporelle de saisie pilotée par invite dans des scènes dynamiques

DrugReasoner : prédiction interprétable de l'approbation des médicaments grâce à un modèle de langage enrichi par le raisonnement

Réseau multimodal de fusion dynamique pour la détection du bien-être de la parole

IA agentique pour les logiciels : réflexions de la communauté du génie logiciel

CoViPAL : Élagage de jetons visuels contextualisés par couche pour les grands modèles vision-langage

L'affirmation de soi LLM peut être décomposée mécaniquement en composantes émotionnelles et logiques

ONG : Descente de gradient naturel orthogonal

Tri-Accel : optimisation adaptative de précision et élastique de la mémoire tenant compte de la courbure pour une utilisation efficace du GPU

GPT-OSS-20B : Analyse complète centrée sur le déploiement du modèle Open-Weight Mixture of Experts d'OpenAI

Relier la généralisation et la personnalisation dans la reconnaissance d'activité humaine via l'apprentissage en quelques étapes sur l'appareil

SparK : parcimonie non structurée tenant compte des requêtes avec élagage récupérable des canaux de cache KV

Optimisation adaptative et robuste de l'inférence LLM en cas d'incertitude de prédiction

NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace

FLAIR : représentations neuronales implicites sensibles à la fréquence et à la localité

Fonction d'évaluation hiérarchique : une approche multimétrique pour optimiser les modèles de prévision de la demande

Apprentissage de prototypes locaux et globaux avec transport optimal pour la détection et la localisation d'anomalies non supervisées

Correspondance de flux quantique

BConformeR : un conformateur basé sur l'échantillonnage mutuel pour la prédiction unifiée des sites de liaison d'anticorps continus et discontinus

Prédicateur : Système agentique papier-vidéo

UQGNN : Quantification de l'incertitude des réseaux neuronaux graphiques pour la prédiction spatio-temporelle multivariée

Grid2Guide : un petit modèle de langage activé par A* pour la navigation intérieure

ACD-CLIP : Découplage de la représentation et fusion dynamique pour la détection d'anomalies à tir nul

MAQuA : Questionnement adaptatif pour le dépistage multidimensionnel de la santé mentale à l'aide de la théorie de la réponse aux items

Classe sans biais pour la généralisation dans le diagnostic médical

Optimisation de la diffusion LLM avec des longueurs de pré-remplissage et de décodage variables

Grid-Agent : un système multi-agents basé sur LLM pour le contrôle du réseau électrique

CF3 : Champs de caractéristiques 3D compacts et rapides

MSC : un ensemble de données vidéo sur la faune marine avec segmentation ancrée et sous-titrage au niveau du clip

Une couche neurosymbolique inspirée de DbC pour une conception d'agent fiable

Analyse de convergence de l'agrégation-diffusion dans le réglage fin distribué compatible LoRA

Exploration de l'application des questions-réponses visuelles (QV) pour le suivi des activités en classe

AR-LIF : neurone à réinitialisation adaptative et à intégration et déclenchement de fuites pour les réseaux neuronaux à pointes

Un cadre catégorique de Markov pour la modélisation du langage

Vers un apprentissage en contexte optimisé par calcul et à plusieurs plans

Analyse comparative de la reconnaissance de la confidentialité des LLM pour la prise de décision des robots sociaux

Modèles de diffusion pour la prévision des séries chronologiques : une enquête

GPI-Net : réseau d'interaction parallèle guidé par la Gestalt via la cohérence géométrique orthogonale pour un enregistrement robuste des nuages de points

ExCyTIn-Bench : évaluation des agents LLM sur les enquêtes sur les cybermenaces

Superintelligence ascendante spécifique au domaine : un graphe de connaissances fiable est ce dont nous avons besoin

Classification fine des fractures du poignet chez l'enfant, tenant compte des données démographiques

Agentic-R1 : Raisonnement à double stratégie distillé

La conduite comme outil de diagnostic : évaluation cognitive basée sur des scénarios chez les conducteurs âgés à partir d'une vidéo de conduite

MedVAL : Vers une validation de textes médicaux de niveau expert avec des modèles linguistiques

NOCTIS : nouvelle segmentation d'instance basée sur un seuil cyclique d'objet

RALLY : Navigation attelée adaptative pilotée par LLM pour les essaims de drones agents

Distillation itérative pour un réglage fin guidé par la récompense des modèles de diffusion dans la conception biomoléculaire

Vers des réseaux neuronaux à pics efficaces et précis grâce à l'allocation adaptative des bits

Score modulé en flux pour la complétion du graphe de connaissances sémantique

TPTT : Transformer des Transformers pré-entraînés en Titans

Quel est l'intérêt de l'égalité dans l'apprentissage automatique ? Au-delà de l'égalité des chances

QGuard : Protection zéro-coup basée sur des questions pour la sécurité LLM multimodale

Un cadre théorique pour l'apprentissage contrastif auto-supervisé pour les données dépendantes continues

LLMEval-Med : une référence clinique concrète pour les masters de médecine validés par un médecin

Invite automatique SQL : une architecture économe en ressources pour la traduction de texte en SQL dans des environnements contraints

ÉTiquetage des données avec des références inconnues

FinS-Pilot : une référence pour les systèmes RAG financiers en ligne

Diagnostic de la fiabilité de l'édition d'images médicales guidée par texte

Accélération des hyperheuristiques avec la sélection d'opérateurs de chaîne de Markov et l'opérateur d'acceptation à seule détérioration

Un modèle de base polyvalent pour les tâches d'analyse d'images par résonance magnétique cardiaque ciné

Dois-je partager cette traduction ? Évaluation des retours de qualité pour évaluer la confiance des utilisateurs dans la traduction automatique.

Plusieurs agents LLM débattent d'un alignement culturel équitable

Notation automatisée des essais intégrant les annotations des systèmes de rétroaction automatisés

Les NeRF peuvent-ils voir sans caméra ?

DiffDecompose : décomposition par couche d'images alpha-composées via des transformateurs de diffusion

Le défi des dons cachés dans l'apprentissage par renforcement multi-agents

Comment puis-je publier mon benchmark LLM sans divulguer les vraies réponses ?

Cog-TiPRO : Affinement itératif des invites avec LLM pour détecter le déclin cognitif via des commandes d'assistant vocal longitudinales

Des jetons aux pensées : comment les LLM et les humains échangent la compression contre du sens

Dévoiler des descriptions multi-images pour la détection multilingue des troubles cognitifs légers via l'apprentissage contrastif

Vers un football coopératif et compétitif dans le monde réel avec des équipes de robots quadrupèdes

FreqSelect : reconstruction d'images IRMf en fonction de la fréquence

ViEEG : représentation neuronale visuelle hiérarchique pour le décodage EEG du cerveau

Dominance en un coup : attaque par empoisonnement des connaissances sur les systèmes de génération augmentée par récupération

Rechercher et affiner pendant la réflexion : recherche autonome et raisonnement augmenté des LLM

ManipBench : Analyse comparative des modèles vision-langage pour la manipulation robotique de bas niveau

Masques PINN : atténuation des variations de covariables internes dans les réseaux neuronaux basés sur la physique

ORBIT-2 : Mise à l'échelle des modèles exascale de la Fondation Vision pour la réduction d'échelle des conditions météorologiques et climatiques

FairPO : optimisation robuste des préférences pour un apprentissage multi-étiquettes équitable

Analyse automatisée des dessins d'ingénierie pour l'extraction d'informations structurées à l'aide d'un transformateur de compréhension de documents optimisé

GenTorrent : Mise à l'échelle d'un modèle linguistique volumineux avec un réseau superposé

Tilus : un langage de programmation GPGPU au niveau des tuiles pour le calcul de faible précision

Progent : Contrôle de privilèges programmable pour les agents LLM

Un algorithme basé sur le déploiement et une fonction de récompense pour l'allocation des ressources dans les processus métier

Agent-Q : Affiner les modèles de langage volumineux pour la génération et l'optimisation de circuits quantiques

Un modèle hybride de transformateur CNN entièrement convolutif pour la détection de maladies intrinsèquement interprétables à partir d'images du fond d'œil de la rétine

Plus de rentabilité : modélisation des récompenses de processus avec incertitude induite par l'entropie

LATTE-MV : Apprendre à anticiper les coups de tennis de table grâce aux vidéos monoculaires

Apprentissage inversé : effacement faiblement supervisé pour segmenter les nodules en échographie mammaire

Optimisation de la détection du cancer du sein dans les mammographies : une étude approfondie de l'apprentissage par transfert, de la réduction de la résolution et de la classification multi-vues

Démasquer les visuels trompeurs : analyse comparative des modèles linguistiques multimodaux volumineux sur la réponse aux questions graphiques trompeuses

Réponse aux questions du tableau général via la génération conjointe de formules de réponse

Découverte de compétences en monde ouvert à partir de démonstrations non segmentées

Voir un monde dans une étincelle de neurone : démêler les interférences multitâches pour la fusion de modèles sans formation

MOHPER : Cadre d'optimisation multi-objectifs hyperparamétrique pour système de récupération de données de commerce électronique

Optimisation de la diffusion LLM avec des longueurs de pré-remplissage et de décodage variables

Created by

Haebom

Auteur

Meixuan Wang, Yinyu Ye, Zijie Zhou

Contour

Cet article étudie le problème du traitement des requêtes LLM avec des longueurs de pré-remplissage et de décodage hétérogènes. Dans le traitement LLM, la longueur de pré-remplissage correspond à la longueur de l'invite d'entrée et détermine l'utilisation initiale de la mémoire du cache KV. La longueur de décodage représente le nombre de jetons de sortie générés séquentiellement, et chaque jeton supplémentaire augmente l'utilisation de la mémoire du cache KV d'une unité. Étant donné un ensemble de n requêtes, notre objectif est de les planifier et de les traiter afin de minimiser le temps d'exécution total. Cet article montre que ce problème est NP-difficile en raison de l'interaction entre le placement, les contraintes de placement, les relations de précédence et l'augmentation linéaire de l'utilisation de la mémoire. Nous analysons les stratégies d'ordonnancement FCFS et SF couramment utilisées et démontrons que leurs taux de contention augmentent de manière sous-linéaire avec les contraintes de mémoire (un inconvénient majeur dans les environnements réels à forte demande mémoire). Pour résoudre ce problème, nous proposons un nouvel algorithme basé sur une nouvelle métrique de sélection qui forme efficacement des lots au fil du temps, et nous démontrons que cet algorithme atteint un taux de contention constant. Enfin, nous développons et évaluons plusieurs variantes algorithmiques inspirées de cette approche, notamment des variantes de programmation dynamique, des méthodes de recherche locale et des planificateurs basés sur LP, et montrons par des simulations complètes qu'elles surpassent la ligne de base standard tout en maintenant l'efficacité de calcul.

Takeaways, Limitations

•

Takeaways: Nous présentons un nouvel algorithme capable d'améliorer considérablement l'efficacité du traitement des requêtes LLM et démontrons son efficacité par une analyse théorique et des résultats expérimentaux. Une nouvelle métrique de sélection, qui forme efficacement des lots au fil du temps, offre une solution pratique applicable aux systèmes de traitement LLM réels. Diverses variantes de l'algorithme améliorent son applicabilité à divers environnements.

•

Limitations: Les performances de l'algorithme proposé sont basées sur des résultats de simulation. Leur performance dans un environnement de système de service LLM réel nécessite une vérification expérimentale plus approfondie. Une analyse plus approfondie de la complexité de l'algorithme pourrait être nécessaire. Des performances optimales peuvent ne pas être garanties pour certains types de distributions de requêtes.

Voir le PDF

Made with Slashpage