Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Dévoilage des images de microscopie optique avec adaptation de flux conditionnel guidée : trouver le juste milieu entre fidélité et réalisme

EFRame : Raisonnement approfondi via un cadre d'apprentissage par renforcement par exploration-filtrage-relecture

Affiner-POI : Renforcement des modèles linguistiques volumineux affinés pour la recommandation du prochain point d'intérêt

HalluSegBench : Raisonnement visuel contrefactuel pour l'évaluation des hallucinations de segmentation

Compréhension de Potemkine dans les grands modèles linguistiques

OmniEval : une référence pour l'évaluation des modèles omnimodaux avec des entrées visuelles, auditives et textuelles

Comment récupérer des exemples dans l'apprentissage en contexte pour améliorer la reconnaissance des émotions conversationnelles à l'aide de grands modèles linguistiques ?

Position : Les conférences sur l’apprentissage automatique devraient mettre en place un volet « Réfutations et critiques »

Classification des dialectes arabes à l'aide de réseaux de neurones rénaux (RNN), de transformateurs et de grands modèles linguistiques : une analyse comparative

Améliorer l'interaction entre les étudiants et l'IA grâce à des incitations pédagogiques : un exemple dans l'enseignement de l'informatique

APERÇU : Cartographie de l'importance des couches de gradient pour l'explication de la saillance visuelle incitée pour les LVLM génératifs

ÉValuation automatique de la dépression grâce à l'apprentissage automatique : une enquête complète

Généralisation des modèles vision-langage à de nouveaux domaines : une étude approfondie

ÉValuation comparative de ChatGPT et DeepSeek pour les principales tâches de PNL : points forts, points faibles et performances spécifiques au domaine

Détection de chansons générée par l'IA via les transcriptions des paroles

KAG-Thinker : pensée interactive et raisonnement approfondi dans les LLM via la génération augmentée des connaissances

Problèmes de qualité des données dans les ensembles de données vocales multilingues : la nécessité d'une sensibilisation sociolinguistique et d'une planification linguistique proactive

Double Entendre : Détection robuste des paroles générées par l'IA et basée sur l'audio via la fusion multi-vues

Alignement de l'évaluation sur les priorités cliniques : étalonnage, décalage d'étiquette et coûts d'erreur

Optimisation des politiques sans valeur via le partitionnement des récompenses

VFEFL : Apprentissage fédéré préservant la confidentialité contre les clients malveillants via un chiffrement fonctionnel vérifiable

Activation d'un alignement précis des sujets dans les grands modèles linguistiques via des autoencodeurs clairsemés

Désapprentissage robuste du LLM avec MUDMAN : méta-désapprentissage avec masquage et normalisation des perturbations

CMI-Bench : un benchmark complet pour évaluer l'enseignement de la musique après

StepProof : vérification étape par étape des preuves mathématiques en langage naturel

Génération de molécules 3D non équivariantes évolutives via l'alignement rotationnel

Amélioration du réglage fin supervisé pour les grands modèles de langage afin d'atténuer les oublis catastrophiques

SLED : un cadre de décodage LLM spéculatif pour un service de périphérie efficace

FZOO : Optimiseur rapide d'ordre zéro pour l'optimisation de grands modèles de langage vers une vitesse comparable à celle d'Adam

VeriLoC : Prédiction au niveau de la ligne de code de la qualité de la conception matérielle à partir du code Verilog

Autonomie multicouche et écologies de l'IA dans les installations artistiques robotiques

Relier la qualité d'expérience subjective et objective : agrégation au niveau de l'opérateur à l'aide de l'analyse des commentaires basée sur LLM et de la comparaison des MOS du réseau

Informatique quantique et intelligence artificielle : état des lieux et perspectives

Affiner les modèles autorégressifs visuels de nouvelle génération avec l'optimisation des politiques relatives aux groupes

Une architecture de contrôle basée sur un modèle de langage volumineux pour l'exploration dynamique des capacités des ressources dans les systèmes de fabrication multi-agents

Spotlight-TTS : mise en valeur du style grâce à l'extraction de style sensible à la voix et à l'ajustement de la direction du style pour une synthèse vocale expressive

WeatherEdit : Édition météo contrôlable avec champ gaussien 4D

De l'alignement à l'avancement : amorcer l'alignement audio-langage avec des données synthétiques

Optimisation des erreurs : surmonter la décroissance exponentielle du signal dans les réseaux de codage prédictif profond

TinyAlign : Optimiser les modèles vision-langage légers en atténuant les goulots d'étranglement de l'alignement modal

Amélioration vidéo basée sur des réseaux antagonistes génératifs à super-résolution

Détection d'objets dans des conditions météorologiques défavorables pour les véhicules autonomes à l'aide d'Instruct Pix2Pix

APERÇU : Combler le fossé entre élèves et enseignants à l'ère des grands modèles linguistiques

SConU : Incertitude conforme sélective dans les grands modèles linguistiques

MetaSynth : échafaudages agentiques pilotés par méta-invite pour la génération de données synthétiques diversifiées

Sculpter la mémoire : oubli multi-concepts dans les modèles de diffusion via un masque dynamique et une optimisation tenant compte des concepts

Atteindre le poids binaire et l'activation pour les LLM à l'aide de la quantification post-formation

Une critique conséquentialiste des pratiques d'évaluation de la classification binaire

Redéfinir les normes d'évaluation : un cadre unifié pour évaluer les capacités des modèles linguistiques coréens

Raisonnement au moment du test grâce aux préférences visuelles humaines avec des VLM et des récompenses souples

FedMM-X : Un cadre fiable et interprétable pour l'apprentissage multimodal fédéré dans des environnements dynamiques

Automatisation de l'évaluation des événements cardiovasculaires à l'aide de grands modèles linguistiques

ATTENTION2D : Mécanisme d'auto-attention distribuée efficace en communication

Invite de positionnement visuel pour la mise à la terre visuelle basée sur MLLM

Time-R1 : Modèle de langage de vision large post-formation pour l'ancrage vidéo temporel

Alignement de l'éthique de la confidentialité dans l'IA : un cadre centré sur les parties prenantes pour une IA éthique

Caractérisation de la résilience du GPU et de son impact sur les systèmes IA/HPC

Analyse des sentiments explicables avec DeepSeek-R1 : performances, efficacité et apprentissage en quelques clics

Neurones : l'émulation du cortex visuel humain améliore la fidélité et l'interprétabilité de la reconstruction IRMf-vidéo

Le problème des a priori ou des postérieurs ?

Gumiho : une architecture hybride pour prioriser les premiers jetons dans le décodage spéculatif

Perturber la fusion des modèles : une défense au niveau des paramètres sans sacrifier la précision

Que peuvent faire les grands modèles linguistiques pour une alimentation durable ?

Un nombre suffisant de lancers de pièces peut inciter les LLM à agir de manière bayésienne

Comment déplacer votre dragon : synthèse de texte en mouvement pour les objets à vocabulaire étendu

Time-MQA : Réponses multitâches à des questions chronologiques avec amélioration du contexte

PipeOffload : amélioration de l'évolutivité du parallélisme des pipelines grâce à l'optimisation de la mémoire

Graphiques spatio-temporels d'ensembles convexes pour la planification de mouvements multi-robots

HalCECE : un cadre pour la détection explicable des hallucinations grâce à des contrefactuels conceptuels dans les légendes d'images

LNUCB-TA : Apprentissage hybride linéaire-non linéaire avec attention temporelle

Bien sûr que non ! Les mécanismes de refus peuvent être exploités grâce à des données de réglage fin inoffensives.

ÉTude de l'impact des méthodes de quantification sur la sécurité et la fiabilité des grands modèles linguistiques

ÉValuation LLM basée sur la génération augmentée de récupération pour l'inférence de machine à états de protocole avec raisonnement par chaîne de pensée

Un modèle de langage général pour l'identification des peptides

Regrouper et prédire les patchs latents pour une modélisation améliorée des images masquées

Streaming vidéo adaptatif et sémantique utilisant des modèles de diffusion latente pour les réseaux sans fil

KMI : un ensemble de données de dialogues d'entretiens motivationnels coréens pour la psychothérapie

Interprétabilité mécaniste de l'inférence des émotions dans les grands modèles linguistiques

Tokeniseur de codes médicaux multimodaux

Il est temps de repenser l'IA pour l'optimisation combinatoire : les algorithmes classiques restent difficiles à égaler

Planification simultanée de mouvements multi-robots avec modèles de diffusion projetés

Calibrage extrinsèque de caméra LiDAR en ligne basé sur l'environnement

Devinez-moi ceci ! Inférence d'appartenance furtive pour la génération augmentée par récupération

DReSS : rationalisation structurée et régularisée basée sur les données pour les grands modèles linguistiques

Vers un apprentissage auto-supervisé automatisé pour une détection d'anomalies de graphes véritablement non supervisée

Allocation adaptative des rangs pour un réglage fin efficace des paramètres fédérés des modèles de langage

DisCoPatch : maîtriser les statistiques de lots pilotées par des adversaires pour une meilleure détection des messages hors distribution

Une enquête sur les variations saisonnières des prévisions énergétiques pour les résidences étudiantes

Servir efficacement les grands modèles multimodaux grâce à la désagrégation EPD

PRMBench : une référence précise et exigeante pour les modèles de récompense au niveau des processus

AlignGuard : alignement de sécurité évolutif pour la génération de texte en image

Une bibliothèque pour l'apprentissage des opérateurs neuronaux

ZipAR : Génération d'images autorégressives parallèles via la localité spatiale

Génération réversible pré-entraînée comme apprentissage de représentation visuelle non supervisé

FLOAT : Correspondance de flux latent de mouvement génératif pour un portrait parlant piloté par l'audio

SEUF : Désapprendre un expert suffit-il pour les LLM composés d'un mélange d'experts ?

Systèmes de recommandation pour le bien commun (RS4Good) : étude de cas et appel à l'action pour une recherche pertinente

Modèles fondamentaux pour les données de mouvement portables dans la recherche en santé mentale

GenBFA : une approche d'optimisation évolutive pour les attaques par retournement de bits sur les LLM

Amélioration de l'échantillonnage postérieur par diffusion pour les problèmes inverses en intégrant des mesures élaborées

Attention ronde : un nouveau mécanisme d'attention au niveau rond pour accélérer l'inférence LLM

Created by

Haebom

Auteur

Yaohua Tang, Zhicheng Hu, Kun Cheng, Fan Mo, Qiheng Lv, Hua Wang, Zhi Chen

Contour

Cet article aborde le problème suivant : malgré l'amélioration des performances de traitement de texte à long terme due à l'augmentation de la taille de la fenêtre contextuelle des modèles linguistiques à grande échelle (LLM), à mesure que les cycles de conversation se poursuivent, une grande quantité de cache KV est requise dans la mémoire GPU, ce qui affecte sérieusement l'efficacité et la disponibilité du système de service de modèles. En analysant les données de conversation utilisateur réelles cycle par cycle, nous trouvons une couche de partage des eaux dans l'inférence LLM et confirmons que les distributions d'attention aux niveaux de cycle suivants sont similaires. Sur cette base, nous proposons un nouveau mécanisme d'attention au niveau du cycle, Round Attention, qui détermine dynamiquement la valeur k via la matrice d'attention de la couche de partage des eaux et traite sélectivement uniquement les caches KV des k cycles les plus pertinents. L'analyse théorique montre qu'elle peut réduire l'utilisation de la mémoire de 54 % à 82 %, et les résultats expérimentaux montrent qu'un chargement parcimonieux du cache KV des cycles critiques maintient la précision sans dégradation des performances.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons un nouveau mécanisme d'attention au niveau du tour (Round Attention) qui améliore considérablement l'efficacité de la mémoire de LLM.

◦

Nous révélons les caractéristiques de l'inférence LLM grâce à l'analyse de données de conversation d'utilisateurs réels et les utilisons pour une gestion efficace de la mémoire.

◦

La méthode proposée réduit considérablement l’utilisation de la mémoire sans dégradation des performances, augmentant ainsi l’applicabilité pratique du LLM.

•

Limitations:

◦

L'efficacité de la méthode proposée pourrait être limitée à certains types de données conversationnelles. Des expériences supplémentaires sur différents types de données conversationnelles sont nécessaires.

◦

Des recherches supplémentaires pourraient être nécessaires sur l’identification précise de la couche du bassin versant et le processus de détermination dynamique de la valeur k.

◦

Une validation supplémentaire est nécessaire sur la généralisabilité de Round Attention et son applicabilité à d'autres architectures LLM.

Voir le PDF

Made with Slashpage