Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Précodage basé sur DNN dans les systèmes MIMO à ondes millimétriques assistés par RIS avec déphasage pratique

Tokenizer holistique pour la génération d'images autorégressives

MAGIC : Inpainting par diffusion guidée par masque avec perturbations multi-niveaux et alignement contextuel pour la génération d'anomalies en quelques prises

Acquisition de commandes sous pression concurrentielle : une approche d'apprentissage par renforcement à adaptation rapide pour les stratégies de subvention des services de VTC

Vers un terrain de jeu pour démocratiser l'expérimentation et l'analyse comparative des agents d'IA pour le dépannage des réseaux

AC-DiT : Transformateur de diffusion à coordination adaptative pour la manipulation mobile

Recherche complète basée sur GPU pour la minimisation non linéaire soumise à des limites

Détoxification du texte : efficacité des données, préservation sémantique et généralisation du modèle

Optimisation des politiques ANFIS en fonction des politiques à l'aide de l'optimisation des politiques proximales

Manipulation robotique par imitation de vidéos générées sans démonstrations physiques

LD-RPS : Restauration d'image unifiée Zero-Shot via échantillonnage postérieur récurrent par diffusion latente

Horus : un protocole de délégation sans confiance en cas d'incertitude

Les anagrammes visuelles révèlent des différences cachées dans le traitement holistique des formes entre les modèles de vision

Forêt aléatoire raffinée et consciente de la diversité

Transformateur d'amélioration d'attention GLU

La récompense implicite comme pont : une vision unifiée des connexions SFT et DPO

CRISP-SAM2 : SAM2 avec interaction intermodale et invite sémantique pour la segmentation multi-organes

Traitement, preuves, imitation et discussion

EFRame : Raisonnement approfondi via un cadre d'apprentissage par renforcement par exploration-filtrage-relecture

Vers une compréhension des habitudes cognitives des grands modèles de raisonnement

SEAL : Conduite autonome coopérative sécurisée de bout en bout basée sur un modèle vision-langage avec modélisation adaptative à longue traîne

À L'intérieur de vous se trouvent de nombreux loups : utiliser des modèles cognitifs pour interpréter les compromis de valeur dans les LLM

IA et développement logiciel agile : de la frustration au succès – Résumé de l'atelier XP2025

Position : Les conférences sur l’apprentissage automatique devraient mettre en place un volet « Réfutations et critiques »

Pourquoi les LLM open source peinent-ils à analyser les données ? Une étude empirique systématique

NOVA : Navigation via l'autonomie visuelle centrée sur l'objet pour le suivi de cibles à grande vitesse dans des environnements non structurés sans GPS

ÉValuation comparative de ChatGPT et DeepSeek pour les principales tâches de PNL : points forts, points faibles et performances spécifiques au domaine

RoboMonkey : Adaptation de l'échantillonnage et de la vérification au temps de test pour les modèles vision-langage-action

Human2LocoMan : apprentissage de la manipulation polyvalente des quadrupèdes grâce à un entraînement préalable

Casper : Déduction d'intentions diverses pour la téléopération assistée avec des modèles de langage visuel

Diffusion discrète dans les grands langages et les modèles multimodaux : une étude

Prédiction robuste des propriétés moléculaires via la densification de données étiquetées rares

LearnAlign : Sélection de données de raisonnement pour l'apprentissage par renforcement dans les grands modèles linguistiques, basée sur un alignement de gradient amélioré

AutoMind : Agent adaptatif et compétent pour la science des données automatisée

HPCTransCompile : un ensemble de données généré par un compilateur d'IA pour la transpilation CUDA haute performance et l'exploration préliminaire LLM

Vers un diagnostic pratique de la maladie d'Alzheimer : un modèle neuronal à pointes léger et interprétable

Les géométries de la vérité sont orthogonales entre les tâches

TrajFlow : Prédiction de mouvement multimodale via la correspondance de flux

Assemblage assisté par graphes pour l'apprentissage par renforcement hiérarchique hors ligne

Rendre un pipeline prêt pour la production : défis et enseignements tirés dans le domaine de la santé

FinBERT2 : un encodeur bidirectionnel spécialisé pour combler le fossé dans le déploiement de modèles de langage volumineux spécifiques à la finance

Systèmes de recommandation, stigmergie et tyrannie de la popularité

HAVIR : Vision hiérarchique pour la reconstruction d'images à l'aide de la diffusion polyvalente guidée par CLIP

SLAC : espace d'action latent pré-entraîné par simulation pour l'apprentissage par renforcement du corps entier dans le monde réel

RewardAnything : Modèles de récompense généralisables basés sur des principes

BiMa : Vers une atténuation des biais pour la récupération de textes et de vidéos grâce à l'aide des éléments de scène

Une approche théorique de l'information quantique pour les modèles probabilistes exploitables

Jouer avec Transformer à plus de 30 FPS via Next-Frame Diffusion

SC-LoRA : équilibre entre un réglage fin efficace et la préservation des connaissances via LoRA à sous-espace restreint

Recherche approfondie à CheckThat! 2025 : identification d'articles scientifiques à partir de mentions implicites sur les réseaux sociaux grâce à la recherche hybride et au reclassement

Raisonnement inductif étendu pour l'inférence de préférences personnalisées à partir de signaux comportementaux

Mieux vaut prévenir que guérir ? Problème de réaction excessive des modèles de langage visuel dans la reconnaissance visuelle des urgences.

Mise à l'échelle adaptative du temps d'inférence via la recherche par diffusion cyclique

Adaptation du domaine VLM pour la compréhension des vidéos de football

Vers une sémantique universelle avec de grands modèles de langage

ReviewInstruct : une méthode de génération de conversations multi-tours basée sur la révision pour les grands modèles linguistiques

Une exploration des images par défaut dans la génération de texte en image

Agrégation des concepts d'équité et de précision dans les algorithmes de prédiction

PRUNE : un cadre de réparation basé sur les correctifs pour le désapprentissage certifiable des réseaux neuronaux

Amélioration de la localisation des objets satellites grâce aux convolutions dilatées et au regroupement spatial assisté par l'attention

Découverte de duplicatas explicables de manuscrits anciens, de taille grossière à fine

La réécriture des données de pré-formation améliore les performances du LLM en mathématiques et en code

Le rôle des LLM open source dans l'avenir de la géoIA

EasyEdit2 : un cadre de pilotage facile à utiliser pour l'édition de modèles de langage volumineux

L'IA pour le monde ouvert : les principes d'apprentissage

Vers une fusion explicable et un apprentissage équilibré dans l'analyse des sentiments multimodaux

TerraMind : Multimodalité générative à grande échelle pour l'observation de la Terre

Cadre NativQA : permettre aux LLM de s'appuyer sur des connaissances natives, locales et quotidiennes

Brèche dans le bouclier : dévoiler les vulnérabilités des grands modèles linguistiques

Quantification de la robustesse : un cadre d'analyse comparative pour la prévision de l'apprentissage profond dans les systèmes cyberphysiques

Améliorer le dialogue personnalisé à plusieurs tours avec la récompense de curiosité

EAP4EMSIG – Amélioration de la microscopie événementielle pour l'analyse microfluidique de cellules individuelles

UNITYAI-GUARD : détection de toxicité pionnière dans les langues indiennes à faibles ressources

CMD-HAR : Démêlage intermodal pour la reconnaissance d'activité humaine par des dispositifs portables

Identification et désambiguïsation de construction à l'aide de BERT : une étude de cas de NPN

PVChat : Chat vidéo personnalisé avec apprentissage instantané

Apprentissage de la représentation de jetons discrets neuronaux pour une réduction extrême des jetons dans les modèles de langage vidéo volumineux

MASS : Sélection de données mathématiques via des graphiques de compétences pour la préformation de grands modèles linguistiques

Modélisation de contexte long avec récupération augmentée de mémoire classée

Sonder les sous-espaces latents dans le LLM pour la sécurité de l'IA : identifier et manipuler les états adverses

Les modèles linguistiques peuvent s'auto-améliorer lors de l'estimation de la valeur de l'état pour une meilleure recherche

RLAIF hors ligne : Pilotage des commentaires VLM pour RL via SFO

Intégration de l'intelligence biologique et de l'intelligence artificielle : mécanismes d'attention dans les interfaces cerveau-ordinateur

Réseaux neuronaux gradués

Les étudiants en master comprennent-ils la sécurité de leurs contributions ? Modération sans formation via des prototypes latents

FairFare : un outil de collecte participative de données sur le covoiturage pour renforcer les syndicats

Apprentissage continu fédéré : concepts, défis et solutions

UniForm : un transformateur de diffusion multitâche unifié pour la génération audio-vidéo

Simulation de code comme proxy pour les tâches d'ordre élevé dans les grands modèles de langage

Une approche efficace de recherche locale pour la découverte de communautés polarisées dans les réseaux signés

Apprentissage des anomalies de trafic à partir de modèles génératifs sur des observations en temps réel

L'IA explicable pour les urgences en santé mentale revient : intégration des LLM à la modélisation prédictive

Génération de méta LoRA en contexte

Repenser le réglage des instructions de table

Expériences de microscopie autonome grâce à de grands agents modèles de langage

Segmentation statique par suivi : une approche efficace en termes d'étiquetage pour la segmentation fine des images d'échantillons

Poids aléatoires des DNN et émergence de points fixes

Sur l'expressivité et la généralisation de la longueur des modèles sélectifs d'espace d'état sur les langages réguliers

Réseau d'approximation de masque : une nouvelle approche de modèle de diffusion pour le sous-titrage des changements de télédétection

Améliorer la cohérence de la génération de vidéos longues sans réglage

Diffusion discrète dans les grands langages et les modèles multimodaux : une étude

Created by

Haebom

Auteur

Runpeng Yu, Qi Li, Xinchao Wang

Contour

Cet article présente une étude systématique des modèles de langage à diffusion discrète (dLLM) et des modèles de langage multimodal à diffusion discrète (dMLLM). Contrairement aux modèles autorégressifs (AR), les dLLM et les dMLLM adoptent un paradigme de décodage parallèle multi-jetons utilisant des stratégies de génération basées sur l'attention totale et le débruitage. Ce paradigme permet naturellement la génération parallèle, le contrôle de sortie à granularité fine et la reconnaissance dynamique et sensible à la réponse, qui étaient auparavant difficiles à obtenir avec les modèles AR. Récemment, de nombreux d(M)LLM propriétaires à l'échelle industrielle et de nombreux d(M)LLM académiques open source ont atteint des performances comparables aux modèles autorégressifs tout en améliorant les vitesses d'inférence jusqu'à 10 fois. Les progrès des LLM et MLLM à diffusion discrète ont été principalement motivés par des avancées dans deux domaines. Le premier est le développement de LLM et MLLM autorégressifs, qui ont accumulé une vaste quantité de données, de repères et d'infrastructures sous-jacentes pour l'entraînement et l'inférence. Le deuxième domaine de contribution est l'avancement des modèles mathématiques sous-jacents de la diffusion discrète. Ces avancées ont entraîné un essor de la recherche en dLLM et dMLLM au début des années 2025. Cet article présente un aperçu complet de la recherche dans ce domaine, retraçant l'évolution historique de ces disciplines, formalisant le cadre mathématique sous-jacent et catégorisant les modèles représentatifs. Il analyse également les techniques clés d'apprentissage et d'inférence, et résume les applications émergentes dans les domaines du langage, de la vision-linguistique et de la biologie. Enfin, il aborde les orientations futures de la recherche et du déploiement.

Takeaways, Limitations

•

Takeaways:

◦

DLLM et dMLLM offrent des avantages par rapport aux modèles AR, notamment la génération parallèle, le contrôle de sortie à granularité fine et la reconnaissance dynamique et sensible à la réponse.

◦

DLLM et dMLLM ont permis d'obtenir une accélération d'inférence jusqu'à 10 fois supérieure à celle du modèle AR.

◦

Cet article fournit un aperçu complet du développement historique de dLLM et dMLLM, de leurs cadres mathématiques, de leurs modèles représentatifs, de leurs techniques de formation et d'inférence et de diverses applications.

◦

Présente les orientations futures de la recherche dLLM et dMLLM.

•

Limitations:

◦

Cet article se concentre sur un aperçu général plutôt que sur une analyse approfondie de modèles ou d’applications spécifiques.

◦

Il peut y avoir un manque de discussion détaillée sur les avantages et les inconvénients de dLLM et dMLLM.

◦

Les suggestions concernant les orientations futures de la recherche peuvent ne pas être spécifiques.

Voir le PDF

Made with Slashpage