Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ELV-Halluc : Analyse comparative des hallucinations d'agrégation sémantique dans la compréhension de longues vidéos

Quantification du biais induit par les étiquettes dans les auto-évaluations et les évaluations croisées des grands modèles linguistiques

R-4B : Encourager la capacité d'auto-réflexion à usage général dans les MLLM via le recuit bimode et l'apprentissage renforcé

EmbodiedOneVision : Pré-entraînement vision-texte-action entrelacés pour le contrôle robotique général

Modèles de langage et programmes logiques pour un raisonnement financier fiable

Robustesse à l'occlusion du CLIP pour la classification des véhicules militaires

SPGrasp : Synthèse spatio-temporelle de saisie pilotée par invite dans des scènes dynamiques

DrugReasoner : prédiction interprétable de l'approbation des médicaments grâce à un modèle de langage enrichi par le raisonnement

Réseau multimodal de fusion dynamique pour la détection du bien-être de la parole

IA agentique pour les logiciels : réflexions de la communauté du génie logiciel

CoViPAL : Élagage de jetons visuels contextualisés par couche pour les grands modèles vision-langage

L'affirmation de soi LLM peut être décomposée mécaniquement en composantes émotionnelles et logiques

ONG : Descente de gradient naturel orthogonal

Tri-Accel : optimisation adaptative de précision et élastique de la mémoire tenant compte de la courbure pour une utilisation efficace du GPU

GPT-OSS-20B : Analyse complète centrée sur le déploiement du modèle Open-Weight Mixture of Experts d'OpenAI

Relier la généralisation et la personnalisation dans la reconnaissance d'activité humaine via l'apprentissage en quelques étapes sur l'appareil

SparK : parcimonie non structurée tenant compte des requêtes avec élagage récupérable des canaux de cache KV

Optimisation adaptative et robuste de l'inférence LLM en cas d'incertitude de prédiction

NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace

FLAIR : représentations neuronales implicites sensibles à la fréquence et à la localité

Fonction d'évaluation hiérarchique : une approche multimétrique pour optimiser les modèles de prévision de la demande

Apprentissage de prototypes locaux et globaux avec transport optimal pour la détection et la localisation d'anomalies non supervisées

Correspondance de flux quantique

BConformeR : un conformateur basé sur l'échantillonnage mutuel pour la prédiction unifiée des sites de liaison d'anticorps continus et discontinus

Prédicateur : Système agentique papier-vidéo

UQGNN : Quantification de l'incertitude des réseaux neuronaux graphiques pour la prédiction spatio-temporelle multivariée

Grid2Guide : un petit modèle de langage activé par A* pour la navigation intérieure

ACD-CLIP : Découplage de la représentation et fusion dynamique pour la détection d'anomalies à tir nul

MAQuA : Questionnement adaptatif pour le dépistage multidimensionnel de la santé mentale à l'aide de la théorie de la réponse aux items

Classe sans biais pour la généralisation dans le diagnostic médical

Optimisation de la diffusion LLM avec des longueurs de pré-remplissage et de décodage variables

Grid-Agent : un système multi-agents basé sur LLM pour le contrôle du réseau électrique

CF3 : Champs de caractéristiques 3D compacts et rapides

MSC : un ensemble de données vidéo sur la faune marine avec segmentation ancrée et sous-titrage au niveau du clip

Une couche neurosymbolique inspirée de DbC pour une conception d'agent fiable

Analyse de convergence de l'agrégation-diffusion dans le réglage fin distribué compatible LoRA

Exploration de l'application des questions-réponses visuelles (QV) pour le suivi des activités en classe

AR-LIF : neurone à réinitialisation adaptative et à intégration et déclenchement de fuites pour les réseaux neuronaux à pointes

Un cadre catégorique de Markov pour la modélisation du langage

Vers un apprentissage en contexte optimisé par calcul et à plusieurs plans

Analyse comparative de la reconnaissance de la confidentialité des LLM pour la prise de décision des robots sociaux

Modèles de diffusion pour la prévision des séries chronologiques : une enquête

GPI-Net : réseau d'interaction parallèle guidé par la Gestalt via la cohérence géométrique orthogonale pour un enregistrement robuste des nuages de points

ExCyTIn-Bench : évaluation des agents LLM sur les enquêtes sur les cybermenaces

Superintelligence ascendante spécifique au domaine : un graphe de connaissances fiable est ce dont nous avons besoin

Classification fine des fractures du poignet chez l'enfant, tenant compte des données démographiques

Agentic-R1 : Raisonnement à double stratégie distillé

La conduite comme outil de diagnostic : évaluation cognitive basée sur des scénarios chez les conducteurs âgés à partir d'une vidéo de conduite

MedVAL : Vers une validation de textes médicaux de niveau expert avec des modèles linguistiques

NOCTIS : nouvelle segmentation d'instance basée sur un seuil cyclique d'objet

RALLY : Navigation attelée adaptative pilotée par LLM pour les essaims de drones agents

Distillation itérative pour un réglage fin guidé par la récompense des modèles de diffusion dans la conception biomoléculaire

Vers des réseaux neuronaux à pics efficaces et précis grâce à l'allocation adaptative des bits

Score modulé en flux pour la complétion du graphe de connaissances sémantique

TPTT : Transformer des Transformers pré-entraînés en Titans

Quel est l'intérêt de l'égalité dans l'apprentissage automatique ? Au-delà de l'égalité des chances

QGuard : Protection zéro-coup basée sur des questions pour la sécurité LLM multimodale

Un cadre théorique pour l'apprentissage contrastif auto-supervisé pour les données dépendantes continues

LLMEval-Med : une référence clinique concrète pour les masters de médecine validés par un médecin

Invite automatique SQL : une architecture économe en ressources pour la traduction de texte en SQL dans des environnements contraints

ÉTiquetage des données avec des références inconnues

FinS-Pilot : une référence pour les systèmes RAG financiers en ligne

Diagnostic de la fiabilité de l'édition d'images médicales guidée par texte

Accélération des hyperheuristiques avec la sélection d'opérateurs de chaîne de Markov et l'opérateur d'acceptation à seule détérioration

Un modèle de base polyvalent pour les tâches d'analyse d'images par résonance magnétique cardiaque ciné

Dois-je partager cette traduction ? Évaluation des retours de qualité pour évaluer la confiance des utilisateurs dans la traduction automatique.

Plusieurs agents LLM débattent d'un alignement culturel équitable

Notation automatisée des essais intégrant les annotations des systèmes de rétroaction automatisés

Les NeRF peuvent-ils voir sans caméra ?

DiffDecompose : décomposition par couche d'images alpha-composées via des transformateurs de diffusion

Le défi des dons cachés dans l'apprentissage par renforcement multi-agents

Comment puis-je publier mon benchmark LLM sans divulguer les vraies réponses ?

Cog-TiPRO : Affinement itératif des invites avec LLM pour détecter le déclin cognitif via des commandes d'assistant vocal longitudinales

Des jetons aux pensées : comment les LLM et les humains échangent la compression contre du sens

Dévoiler des descriptions multi-images pour la détection multilingue des troubles cognitifs légers via l'apprentissage contrastif

Vers un football coopératif et compétitif dans le monde réel avec des équipes de robots quadrupèdes

FreqSelect : reconstruction d'images IRMf en fonction de la fréquence

ViEEG : représentation neuronale visuelle hiérarchique pour le décodage EEG du cerveau

Dominance en un coup : attaque par empoisonnement des connaissances sur les systèmes de génération augmentée par récupération

Rechercher et affiner pendant la réflexion : recherche autonome et raisonnement augmenté des LLM

ManipBench : Analyse comparative des modèles vision-langage pour la manipulation robotique de bas niveau

Masques PINN : atténuation des variations de covariables internes dans les réseaux neuronaux basés sur la physique

ORBIT-2 : Mise à l'échelle des modèles exascale de la Fondation Vision pour la réduction d'échelle des conditions météorologiques et climatiques

FairPO : optimisation robuste des préférences pour un apprentissage multi-étiquettes équitable

Analyse automatisée des dessins d'ingénierie pour l'extraction d'informations structurées à l'aide d'un transformateur de compréhension de documents optimisé

GenTorrent : Mise à l'échelle d'un modèle linguistique volumineux avec un réseau superposé

Tilus : un langage de programmation GPGPU au niveau des tuiles pour le calcul de faible précision

Progent : Contrôle de privilèges programmable pour les agents LLM

Un algorithme basé sur le déploiement et une fonction de récompense pour l'allocation des ressources dans les processus métier

Agent-Q : Affiner les modèles de langage volumineux pour la génération et l'optimisation de circuits quantiques

Un modèle hybride de transformateur CNN entièrement convolutif pour la détection de maladies intrinsèquement interprétables à partir d'images du fond d'œil de la rétine

Plus de rentabilité : modélisation des récompenses de processus avec incertitude induite par l'entropie

LATTE-MV : Apprendre à anticiper les coups de tennis de table grâce aux vidéos monoculaires

Apprentissage inversé : effacement faiblement supervisé pour segmenter les nodules en échographie mammaire

Optimisation de la détection du cancer du sein dans les mammographies : une étude approfondie de l'apprentissage par transfert, de la réduction de la résolution et de la classification multi-vues

Démasquer les visuels trompeurs : analyse comparative des modèles linguistiques multimodaux volumineux sur la réponse aux questions graphiques trompeuses

Réponse aux questions du tableau général via la génération conjointe de formules de réponse

Découverte de compétences en monde ouvert à partir de démonstrations non segmentées

Voir un monde dans une étincelle de neurone : démêler les interférences multitâches pour la fusion de modèles sans formation

MOHPER : Cadre d'optimisation multi-objectifs hyperparamétrique pour système de récupération de données de commerce électronique

Optimisation adaptative et robuste de l'inférence LLM en cas d'incertitude de prédiction

Created by

Haebom

Auteur

Zixi Chen, Yinyu Ye, Zijie Zhou

Contour

Cet article étudie la minimisation du temps d'attente total par l'optimisation de l'ordonnancement de l'inférence du modèle de langage à grande échelle (LLM). L'inférence LLM est un processus de service multitâche en ligne, et un LLM pré-entraîné consomme une énergie importante lors du traitement des requêtes d'entrée et de la génération séquentielle des jetons de sortie. Par conséquent, l'amélioration de l'efficacité de l'ordonnancement et la réduction de la consommation d'énergie sont cruciales lorsqu'un grand nombre de requêtes d'invite arrivent. Un défi majeur de l'ordonnancement de l'inférence LLM est que, si la longueur de l'invite est connue à l'arrivée, la longueur de la sortie, qui impacte significativement l'utilisation de la mémoire et le temps de traitement, est inconnue. Pour pallier cette incertitude, cet article propose un algorithme utilisant l'apprentissage automatique pour prédire la longueur de la sortie. Nous supposons que la prédiction pour chaque requête fournit une classification d'intervalle (une plage minimum-maximum). Un algorithme conservateur, $\mathcal{A} { \max}$, ordonne les requêtes en fonction d'une borne supérieure de la longueur de sortie prédite afin d'éviter un dépassement de mémoire. Cependant, cette méthode est trop conservatrice, ce qui entraîne une dégradation significative des performances due à une surestimation lorsque la précision de la prédiction diminue. Pour surmonter ces limitations, cet article propose un algorithme adaptatif, $\mathcal{A} {\min}$, qui traite la borne inférieure prédite comme la longueur de sortie initiale et améliore dynamiquement cette estimation lors de l'inférence. Nous prouvons que $\mathcal{A} {\min}$ atteint un rapport de compétitivité à l'échelle logarithmique, et des simulations numériques démontrent que $\mathcal{A} {\min}$ est efficace et robuste dans des scénarios réels. De plus, $\mathcal{A}_{\min}$ ne s'appuie que sur la borne inférieure de l'intervalle de prédiction, ce qui est avantageux car prédire avec précision la borne supérieure de la longueur de sortie est généralement plus difficile.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons un nouvel algorithme ($\mathcal{A}_{\min}$) qui améliore l'efficacité de la planification de l'inférence LLM et réduit la consommation d'énergie.

◦

Nous démontrons le potentiel des algorithmes adaptatifs pour gérer efficacement l’incertitude dans la prédiction de la longueur de sortie.

◦

Garanties de performance théoriques pour les algorithmes qui atteignent des ratios de concurrence à l'échelle logarithmique.

◦

Vérification expérimentale de l'efficacité et de la robustesse de $\mathcal{A}_{\min}$ dans des scénarios réels.

◦

Compte tenu de la difficulté de prédire la limite supérieure de la longueur de sortie, nous présentons l’aspect pratique d’une conception qui repose uniquement sur la limite inférieure.

•

Limitations:

◦

Les performances de l'algorithme proposé dépendent fortement de la précision de la prédiction de la longueur de sortie. Il est donc crucial d'améliorer les performances du modèle de prédiction.

◦

Les résultats des simulations numériques peuvent différer des environnements système réels. Des vérifications supplémentaires sur des systèmes réels sont nécessaires.

◦

Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à travers différentes architectures LLM et types de tâches.

Voir le PDF

Made with Slashpage