Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Dévoilage des images de microscopie optique avec adaptation de flux conditionnel guidée : trouver le juste milieu entre fidélité et réalisme

EFRame : Raisonnement approfondi via un cadre d'apprentissage par renforcement par exploration-filtrage-relecture

Affiner-POI : Renforcement des modèles linguistiques volumineux affinés pour la recommandation du prochain point d'intérêt

HalluSegBench : Raisonnement visuel contrefactuel pour l'évaluation des hallucinations de segmentation

Compréhension de Potemkine dans les grands modèles linguistiques

OmniEval : une référence pour l'évaluation des modèles omnimodaux avec des entrées visuelles, auditives et textuelles

Comment récupérer des exemples dans l'apprentissage en contexte pour améliorer la reconnaissance des émotions conversationnelles à l'aide de grands modèles linguistiques ?

Position : Les conférences sur l’apprentissage automatique devraient mettre en place un volet « Réfutations et critiques »

Classification des dialectes arabes à l'aide de réseaux de neurones rénaux (RNN), de transformateurs et de grands modèles linguistiques : une analyse comparative

Améliorer l'interaction entre les étudiants et l'IA grâce à des incitations pédagogiques : un exemple dans l'enseignement de l'informatique

APERÇU : Cartographie de l'importance des couches de gradient pour l'explication de la saillance visuelle incitée pour les LVLM génératifs

ÉValuation automatique de la dépression grâce à l'apprentissage automatique : une enquête complète

Généralisation des modèles vision-langage à de nouveaux domaines : une étude approfondie

ÉValuation comparative de ChatGPT et DeepSeek pour les principales tâches de PNL : points forts, points faibles et performances spécifiques au domaine

Détection de chansons générée par l'IA via les transcriptions des paroles

KAG-Thinker : pensée interactive et raisonnement approfondi dans les LLM via la génération augmentée des connaissances

Problèmes de qualité des données dans les ensembles de données vocales multilingues : la nécessité d'une sensibilisation sociolinguistique et d'une planification linguistique proactive

Double Entendre : Détection robuste des paroles générées par l'IA et basée sur l'audio via la fusion multi-vues

Alignement de l'évaluation sur les priorités cliniques : étalonnage, décalage d'étiquette et coûts d'erreur

Optimisation des politiques sans valeur via le partitionnement des récompenses

VFEFL : Apprentissage fédéré préservant la confidentialité contre les clients malveillants via un chiffrement fonctionnel vérifiable

Activation d'un alignement précis des sujets dans les grands modèles linguistiques via des autoencodeurs clairsemés

Désapprentissage robuste du LLM avec MUDMAN : méta-désapprentissage avec masquage et normalisation des perturbations

CMI-Bench : un benchmark complet pour évaluer l'enseignement de la musique après

StepProof : vérification étape par étape des preuves mathématiques en langage naturel

Génération de molécules 3D non équivariantes évolutives via l'alignement rotationnel

Amélioration du réglage fin supervisé pour les grands modèles de langage afin d'atténuer les oublis catastrophiques

SLED : un cadre de décodage LLM spéculatif pour un service de périphérie efficace

FZOO : Optimiseur rapide d'ordre zéro pour l'optimisation de grands modèles de langage vers une vitesse comparable à celle d'Adam

VeriLoC : Prédiction au niveau de la ligne de code de la qualité de la conception matérielle à partir du code Verilog

Autonomie multicouche et écologies de l'IA dans les installations artistiques robotiques

Relier la qualité d'expérience subjective et objective : agrégation au niveau de l'opérateur à l'aide de l'analyse des commentaires basée sur LLM et de la comparaison des MOS du réseau

Informatique quantique et intelligence artificielle : état des lieux et perspectives

Affiner les modèles autorégressifs visuels de nouvelle génération avec l'optimisation des politiques relatives aux groupes

Une architecture de contrôle basée sur un modèle de langage volumineux pour l'exploration dynamique des capacités des ressources dans les systèmes de fabrication multi-agents

Spotlight-TTS : mise en valeur du style grâce à l'extraction de style sensible à la voix et à l'ajustement de la direction du style pour une synthèse vocale expressive

WeatherEdit : Édition météo contrôlable avec champ gaussien 4D

De l'alignement à l'avancement : amorcer l'alignement audio-langage avec des données synthétiques

Optimisation des erreurs : surmonter la décroissance exponentielle du signal dans les réseaux de codage prédictif profond

TinyAlign : Optimiser les modèles vision-langage légers en atténuant les goulots d'étranglement de l'alignement modal

Amélioration vidéo basée sur des réseaux antagonistes génératifs à super-résolution

Détection d'objets dans des conditions météorologiques défavorables pour les véhicules autonomes à l'aide d'Instruct Pix2Pix

APERÇU : Combler le fossé entre élèves et enseignants à l'ère des grands modèles linguistiques

SConU : Incertitude conforme sélective dans les grands modèles linguistiques

MetaSynth : échafaudages agentiques pilotés par méta-invite pour la génération de données synthétiques diversifiées

Sculpter la mémoire : oubli multi-concepts dans les modèles de diffusion via un masque dynamique et une optimisation tenant compte des concepts

Atteindre le poids binaire et l'activation pour les LLM à l'aide de la quantification post-formation

Une critique conséquentialiste des pratiques d'évaluation de la classification binaire

Redéfinir les normes d'évaluation : un cadre unifié pour évaluer les capacités des modèles linguistiques coréens

Raisonnement au moment du test grâce aux préférences visuelles humaines avec des VLM et des récompenses souples

FedMM-X : Un cadre fiable et interprétable pour l'apprentissage multimodal fédéré dans des environnements dynamiques

Automatisation de l'évaluation des événements cardiovasculaires à l'aide de grands modèles linguistiques

ATTENTION2D : Mécanisme d'auto-attention distribuée efficace en communication

Invite de positionnement visuel pour la mise à la terre visuelle basée sur MLLM

Time-R1 : Modèle de langage de vision large post-formation pour l'ancrage vidéo temporel

Alignement de l'éthique de la confidentialité dans l'IA : un cadre centré sur les parties prenantes pour une IA éthique

Caractérisation de la résilience du GPU et de son impact sur les systèmes IA/HPC

Analyse des sentiments explicables avec DeepSeek-R1 : performances, efficacité et apprentissage en quelques clics

Neurones : l'émulation du cortex visuel humain améliore la fidélité et l'interprétabilité de la reconstruction IRMf-vidéo

Le problème des a priori ou des postérieurs ?

Gumiho : une architecture hybride pour prioriser les premiers jetons dans le décodage spéculatif

Perturber la fusion des modèles : une défense au niveau des paramètres sans sacrifier la précision

Que peuvent faire les grands modèles linguistiques pour une alimentation durable ?

Un nombre suffisant de lancers de pièces peut inciter les LLM à agir de manière bayésienne

Comment déplacer votre dragon : synthèse de texte en mouvement pour les objets à vocabulaire étendu

Time-MQA : Réponses multitâches à des questions chronologiques avec amélioration du contexte

PipeOffload : amélioration de l'évolutivité du parallélisme des pipelines grâce à l'optimisation de la mémoire

Graphiques spatio-temporels d'ensembles convexes pour la planification de mouvements multi-robots

HalCECE : un cadre pour la détection explicable des hallucinations grâce à des contrefactuels conceptuels dans les légendes d'images

LNUCB-TA : Apprentissage hybride linéaire-non linéaire avec attention temporelle

Bien sûr que non ! Les mécanismes de refus peuvent être exploités grâce à des données de réglage fin inoffensives.

ÉTude de l'impact des méthodes de quantification sur la sécurité et la fiabilité des grands modèles linguistiques

ÉValuation LLM basée sur la génération augmentée de récupération pour l'inférence de machine à états de protocole avec raisonnement par chaîne de pensée

Un modèle de langage général pour l'identification des peptides

Regrouper et prédire les patchs latents pour une modélisation améliorée des images masquées

Streaming vidéo adaptatif et sémantique utilisant des modèles de diffusion latente pour les réseaux sans fil

KMI : un ensemble de données de dialogues d'entretiens motivationnels coréens pour la psychothérapie

Interprétabilité mécaniste de l'inférence des émotions dans les grands modèles linguistiques

Tokeniseur de codes médicaux multimodaux

Il est temps de repenser l'IA pour l'optimisation combinatoire : les algorithmes classiques restent difficiles à égaler

Planification simultanée de mouvements multi-robots avec modèles de diffusion projetés

Calibrage extrinsèque de caméra LiDAR en ligne basé sur l'environnement

Devinez-moi ceci ! Inférence d'appartenance furtive pour la génération augmentée par récupération

DReSS : rationalisation structurée et régularisée basée sur les données pour les grands modèles linguistiques

Vers un apprentissage auto-supervisé automatisé pour une détection d'anomalies de graphes véritablement non supervisée

Allocation adaptative des rangs pour un réglage fin efficace des paramètres fédérés des modèles de langage

DisCoPatch : maîtriser les statistiques de lots pilotées par des adversaires pour une meilleure détection des messages hors distribution

Une enquête sur les variations saisonnières des prévisions énergétiques pour les résidences étudiantes

Servir efficacement les grands modèles multimodaux grâce à la désagrégation EPD

PRMBench : une référence précise et exigeante pour les modèles de récompense au niveau des processus

AlignGuard : alignement de sécurité évolutif pour la génération de texte en image

Une bibliothèque pour l'apprentissage des opérateurs neuronaux

ZipAR : Génération d'images autorégressives parallèles via la localité spatiale

Génération réversible pré-entraînée comme apprentissage de représentation visuelle non supervisé

FLOAT : Correspondance de flux latent de mouvement génératif pour un portrait parlant piloté par l'audio

SEUF : Désapprendre un expert suffit-il pour les LLM composés d'un mélange d'experts ?

Systèmes de recommandation pour le bien commun (RS4Good) : étude de cas et appel à l'action pour une recherche pertinente

Modèles fondamentaux pour les données de mouvement portables dans la recherche en santé mentale

GenBFA : une approche d'optimisation évolutive pour les attaques par retournement de bits sur les LLM

Amélioration de l'échantillonnage postérieur par diffusion pour les problèmes inverses en intégrant des mesures élaborées

TinyAlign : Optimiser les modèles vision-langage légers en atténuant les goulots d'étranglement de l'alignement modal

Created by

Haebom

Auteur

Yuanze Hu, Zhaoxin Fan, Xinyu Wang, Gen Li, Ye Qiu, Zhichao Yang, Wenjun Wu, Kejian Wu, Yifan Sun, Xiaotie Deng, Jin Dong

Contour

Cet article se concentre sur l'amélioration des performances des modèles vision-langage légers (VLM). Les VLM légers existants utilisent une méthode qui entraîne uniquement de petits modules connectés tout en corrigeant l'encodeur de vision et le modèle de langage. Cette méthode repose fortement sur la capacité de représentation du modèle de langage et entraîne une dégradation des performances. Cette étude analyse ces limitations du point de vue de l'information mutuelle (MIT) et montre que la capacité limitée du modèle de langage limite l'information mutuelle effective (EMI) entre les entrées et les sorties multimodales, dégradant ainsi la qualité de l'alignement. Pour résoudre ce problème, cet article propose le framework TinyAlign, inspiré de la génération augmentée par récupération. TinyAlign enrichit les entrées multimodales et améliore l'alignement en récupérant les contextes pertinents dans les banques de mémoire. Les résultats expérimentaux montrent que TinyAlign réduit significativement les pertes d'apprentissage, accélère la convergence et améliore les performances des tâches. Il présente notamment une excellente efficacité des données en atteignant les mêmes performances avec seulement 40 % des données du modèle existant.

Takeaways, Limitations_

•

Takeaways:

◦

Présentation de TinyAlign, un nouveau framework pour améliorer les performances des VLM légers

◦

Présentation d'une stratégie d'alignement multimodal efficace utilisant la technique de récupération-génération augmentée

◦

Analyse de la cause de la dégradation des performances des VLM légers à l'aide d'informations mutuelles et de suggestions de solutions

◦

Les performances de TinyAlign se révèlent supérieures aux modèles existants en termes d'efficacité des données (performances équivalentes obtenues avec 40 % des données)

•

Limitations:

◦

Des recherches supplémentaires sont nécessaires sur la taille et la configuration de la banque de mémoire de TinyAlign.

◦

Il est nécessaire d'évaluer les performances de généralisation pour divers VLM légers et diverses tâches en aval

◦

Une analyse plus approfondie du coût de calcul et de la complexité de la méthodologie proposée est nécessaire.

Voir le PDF

Made with Slashpage