Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Précodage basé sur DNN dans les systèmes MIMO à ondes millimétriques assistés par RIS avec déphasage pratique

Tokenizer holistique pour la génération d'images autorégressives

MAGIC : Inpainting par diffusion guidée par masque avec perturbations multi-niveaux et alignement contextuel pour la génération d'anomalies en quelques prises

Acquisition de commandes sous pression concurrentielle : une approche d'apprentissage par renforcement à adaptation rapide pour les stratégies de subvention des services de VTC

Vers un terrain de jeu pour démocratiser l'expérimentation et l'analyse comparative des agents d'IA pour le dépannage des réseaux

AC-DiT : Transformateur de diffusion à coordination adaptative pour la manipulation mobile

Recherche complète basée sur GPU pour la minimisation non linéaire soumise à des limites

Détoxification du texte : efficacité des données, préservation sémantique et généralisation du modèle

Optimisation des politiques ANFIS en fonction des politiques à l'aide de l'optimisation des politiques proximales

Manipulation robotique par imitation de vidéos générées sans démonstrations physiques

LD-RPS : Restauration d'image unifiée Zero-Shot via échantillonnage postérieur récurrent par diffusion latente

Horus : un protocole de délégation sans confiance en cas d'incertitude

Les anagrammes visuelles révèlent des différences cachées dans le traitement holistique des formes entre les modèles de vision

Forêt aléatoire raffinée et consciente de la diversité

Transformateur d'amélioration d'attention GLU

La récompense implicite comme pont : une vision unifiée des connexions SFT et DPO

CRISP-SAM2 : SAM2 avec interaction intermodale et invite sémantique pour la segmentation multi-organes

Traitement, preuves, imitation et discussion

EFRame : Raisonnement approfondi via un cadre d'apprentissage par renforcement par exploration-filtrage-relecture

Vers une compréhension des habitudes cognitives des grands modèles de raisonnement

SEAL : Conduite autonome coopérative sécurisée de bout en bout basée sur un modèle vision-langage avec modélisation adaptative à longue traîne

À L'intérieur de vous se trouvent de nombreux loups : utiliser des modèles cognitifs pour interpréter les compromis de valeur dans les LLM

IA et développement logiciel agile : de la frustration au succès – Résumé de l'atelier XP2025

Position : Les conférences sur l’apprentissage automatique devraient mettre en place un volet « Réfutations et critiques »

Pourquoi les LLM open source peinent-ils à analyser les données ? Une étude empirique systématique

NOVA : Navigation via l'autonomie visuelle centrée sur l'objet pour le suivi de cibles à grande vitesse dans des environnements non structurés sans GPS

ÉValuation comparative de ChatGPT et DeepSeek pour les principales tâches de PNL : points forts, points faibles et performances spécifiques au domaine

RoboMonkey : Adaptation de l'échantillonnage et de la vérification au temps de test pour les modèles vision-langage-action

Human2LocoMan : apprentissage de la manipulation polyvalente des quadrupèdes grâce à un entraînement préalable

Casper : Déduction d'intentions diverses pour la téléopération assistée avec des modèles de langage visuel

Diffusion discrète dans les grands langages et les modèles multimodaux : une étude

Prédiction robuste des propriétés moléculaires via la densification de données étiquetées rares

LearnAlign : Sélection de données de raisonnement pour l'apprentissage par renforcement dans les grands modèles linguistiques, basée sur un alignement de gradient amélioré

AutoMind : Agent adaptatif et compétent pour la science des données automatisée

HPCTransCompile : un ensemble de données généré par un compilateur d'IA pour la transpilation CUDA haute performance et l'exploration préliminaire LLM

Vers un diagnostic pratique de la maladie d'Alzheimer : un modèle neuronal à pointes léger et interprétable

Les géométries de la vérité sont orthogonales entre les tâches

TrajFlow : Prédiction de mouvement multimodale via la correspondance de flux

Assemblage assisté par graphes pour l'apprentissage par renforcement hiérarchique hors ligne

Rendre un pipeline prêt pour la production : défis et enseignements tirés dans le domaine de la santé

FinBERT2 : un encodeur bidirectionnel spécialisé pour combler le fossé dans le déploiement de modèles de langage volumineux spécifiques à la finance

Systèmes de recommandation, stigmergie et tyrannie de la popularité

HAVIR : Vision hiérarchique pour la reconstruction d'images à l'aide de la diffusion polyvalente guidée par CLIP

SLAC : espace d'action latent pré-entraîné par simulation pour l'apprentissage par renforcement du corps entier dans le monde réel

RewardAnything : Modèles de récompense généralisables basés sur des principes

BiMa : Vers une atténuation des biais pour la récupération de textes et de vidéos grâce à l'aide des éléments de scène

Une approche théorique de l'information quantique pour les modèles probabilistes exploitables

Jouer avec Transformer à plus de 30 FPS via Next-Frame Diffusion

SC-LoRA : équilibre entre un réglage fin efficace et la préservation des connaissances via LoRA à sous-espace restreint

Recherche approfondie à CheckThat! 2025 : identification d'articles scientifiques à partir de mentions implicites sur les réseaux sociaux grâce à la recherche hybride et au reclassement

Raisonnement inductif étendu pour l'inférence de préférences personnalisées à partir de signaux comportementaux

Mieux vaut prévenir que guérir ? Problème de réaction excessive des modèles de langage visuel dans la reconnaissance visuelle des urgences.

Mise à l'échelle adaptative du temps d'inférence via la recherche par diffusion cyclique

Adaptation du domaine VLM pour la compréhension des vidéos de football

Vers une sémantique universelle avec de grands modèles de langage

ReviewInstruct : une méthode de génération de conversations multi-tours basée sur la révision pour les grands modèles linguistiques

Une exploration des images par défaut dans la génération de texte en image

Agrégation des concepts d'équité et de précision dans les algorithmes de prédiction

PRUNE : un cadre de réparation basé sur les correctifs pour le désapprentissage certifiable des réseaux neuronaux

Amélioration de la localisation des objets satellites grâce aux convolutions dilatées et au regroupement spatial assisté par l'attention

Découverte de duplicatas explicables de manuscrits anciens, de taille grossière à fine

La réécriture des données de pré-formation améliore les performances du LLM en mathématiques et en code

Le rôle des LLM open source dans l'avenir de la géoIA

EasyEdit2 : un cadre de pilotage facile à utiliser pour l'édition de modèles de langage volumineux

L'IA pour le monde ouvert : les principes d'apprentissage

Vers une fusion explicable et un apprentissage équilibré dans l'analyse des sentiments multimodaux

TerraMind : Multimodalité générative à grande échelle pour l'observation de la Terre

Cadre NativQA : permettre aux LLM de s'appuyer sur des connaissances natives, locales et quotidiennes

Brèche dans le bouclier : dévoiler les vulnérabilités des grands modèles linguistiques

Quantification de la robustesse : un cadre d'analyse comparative pour la prévision de l'apprentissage profond dans les systèmes cyberphysiques

Améliorer le dialogue personnalisé à plusieurs tours avec la récompense de curiosité

EAP4EMSIG – Amélioration de la microscopie événementielle pour l'analyse microfluidique de cellules individuelles

UNITYAI-GUARD : détection de toxicité pionnière dans les langues indiennes à faibles ressources

CMD-HAR : Démêlage intermodal pour la reconnaissance d'activité humaine par des dispositifs portables

Identification et désambiguïsation de construction à l'aide de BERT : une étude de cas de NPN

PVChat : Chat vidéo personnalisé avec apprentissage instantané

Apprentissage de la représentation de jetons discrets neuronaux pour une réduction extrême des jetons dans les modèles de langage vidéo volumineux

MASS : Sélection de données mathématiques via des graphiques de compétences pour la préformation de grands modèles linguistiques

Modélisation de contexte long avec récupération augmentée de mémoire classée

Sonder les sous-espaces latents dans le LLM pour la sécurité de l'IA : identifier et manipuler les états adverses

Les modèles linguistiques peuvent s'auto-améliorer lors de l'estimation de la valeur de l'état pour une meilleure recherche

RLAIF hors ligne : Pilotage des commentaires VLM pour RL via SFO

Intégration de l'intelligence biologique et de l'intelligence artificielle : mécanismes d'attention dans les interfaces cerveau-ordinateur

Réseaux neuronaux gradués

Les étudiants en master comprennent-ils la sécurité de leurs contributions ? Modération sans formation via des prototypes latents

FairFare : un outil de collecte participative de données sur le covoiturage pour renforcer les syndicats

Apprentissage continu fédéré : concepts, défis et solutions

UniForm : un transformateur de diffusion multitâche unifié pour la génération audio-vidéo

Simulation de code comme proxy pour les tâches d'ordre élevé dans les grands modèles de langage

Une approche efficace de recherche locale pour la découverte de communautés polarisées dans les réseaux signés

Apprentissage des anomalies de trafic à partir de modèles génératifs sur des observations en temps réel

L'IA explicable pour les urgences en santé mentale revient : intégration des LLM à la modélisation prédictive

Génération de méta LoRA en contexte

Repenser le réglage des instructions de table

Expériences de microscopie autonome grâce à de grands agents modèles de langage

Segmentation statique par suivi : une approche efficace en termes d'étiquetage pour la segmentation fine des images d'échantillons

Poids aléatoires des DNN et émergence de points fixes

Sur l'expressivité et la généralisation de la longueur des modèles sélectifs d'espace d'état sur les langages réguliers

Réseau d'approximation de masque : une nouvelle approche de modèle de diffusion pour le sous-titrage des changements de télédétection

Améliorer la cohérence de la génération de vidéos longues sans réglage

Created by

Haebom

Auteur

Xingyao Li, Fengzhuo Zhang, Jiachun Pan, Yunlong Hou, Vincent YF Tan, Zhuoran Yang

Contour

Cet article se concentre sur l'amélioration de la cohérence de la génération de vidéos longues, notamment la fluidité et les transitions entre les scènes. Pour améliorer la cohérence et la cohésion de la génération vidéo utilisant une ou plusieurs invites, nous proposons un algorithme de repondération temporelle de l'attention (TiARA) basé sur la transformée de Fourier discrète à court terme (DSFT). TiARA améliore la cohérence inter-images en modifiant la matrice des scores d'attention par une analyse fréquentielle. De plus, nous identifions des facteurs importants tels que l'alignement des invites pour les vidéos générées avec plusieurs invites et proposons PromptBlend, un pipeline avancé d'interpolation d'invites qui aligne systématiquement les invites. Les résultats expérimentaux confirment l'efficacité de la méthode proposée, montrant des améliorations de performance constantes et significatives par rapport à plusieurs modèles de référence.

Takeaways, Limitations

•

Takeaways:

◦

Nous appliquons d’abord une méthode basée sur la fréquence dans un modèle de diffusion vidéo pour améliorer la cohérence de la génération vidéo à long terme.

◦

Nous présentons les algorithmes TiARA et PromptBlend, qui contribuent à améliorer la cohérence et la cohésion de la génération vidéo dans les invites simples et multiples.

◦

Nous révélons l’importance de l’alignement rapide dans la génération de vidéos multi-invites et proposons une méthode pour l’améliorer.

◦

L’efficacité de la méthode proposée est démontrée par des expériences sur différents modèles de référence.

•

Limitations:

◦

Il manque une analyse du coût de calcul et de la complexité de la méthode proposée.

◦

Des recherches supplémentaires sont nécessaires sur les performances de généralisation sur différents types d’ensembles de données vidéo.

◦

Une analyse est nécessaire pour déterminer le potentiel de dégradation des performances pour des types spécifiques d’invites ou de vidéos.

Voir le PDF

Made with Slashpage