Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HoPE : codage positionnel rotatif hyperbolique pour une modélisation stable des dépendances à longue portée dans les grands modèles de langage

Analyse comparative des modèles de transformateurs dans la classification des tweets en cas de catastrophe pour la sécurité publique

Dynamique sociale émergente des agents LLM dans le problème du barreau d'El Farol

Le bon, la brute et le constructif : mesurer automatiquement l’utilité de l’évaluation par les pairs pour les auteurs

Les paysages énergétiques permettent une abstention fiable dans les modèles de langage à grande échelle augmentés par la récupération pour les soins de santé

DEXOP : un dispositif de transfert robotisé de manipulations humaines adroites

Apprentissage par renforcement pour un contrôle robuste et sensible au vieillissement des systèmes de batteries Li-ion avec vérification formelle basée sur les données

RepoDebug : Évaluation du débogage multitâche et multilingue au niveau du référentiel pour les grands modèles de langage

Modélisation d'une chambre d'écho à puits gravitationnel avec un modèle de biais de confirmation basé sur LLM

Aperçu de la dynamique du gradient : normalisation auto-échelonnée du gradient

Virtuose efficace : un modèle de transformateur de diffusion latent pour la planification de trajectoire conditionnée par des objectifs

MoSEs : détection de texte générée par l'IA tenant compte de l'incertitude via un mélange d'experts stylistiques avec des seuils conditionnels

DCPO : optimisation de la politique de découpage dynamique

DSDE : Décodage spéculatif dynamique avec stabilité KLD pour une diffusion dans le monde réel

L’IA peut-elle être auditable ?

Détection robotisée des risques d'incendie basée sur le raisonnement par graphes de connaissances dynamiques : une approche basée sur le LLM avec chaîne de pensée graphique

Naviguer dans la loi européenne sur l'IA : défis prévisibles pour qualifier les inspections automatisées basées sur l'apprentissage profond des dispositifs médicaux de classe III

Un système d'apprentissage complémentaire permet l'apprentissage continu en ligne de la prévision des mouvements des véhicules dans les villes intelligentes

MultiPL-MoE : Extension multilingue de grands modèles de langage grâce à un mélange hybride d'experts

QuadKAN : Contrôle du mouvement des quadrupèdes amélioré par KAN via l'apprentissage par renforcement de bout en bout

MovieCORE : Raisonnement cognitif au cinéma

Optimisation automatique des invites avec distillation rapide

Attaques par inférence d'appartenance sur les systèmes de recommandation basés sur LLM

Exploiter de grands modèles linguistiques pour une traduction précise en langue des signes dans des scénarios à faibles ressources

Optimisation de la politique d'attentes de groupe pour l'apprentissage par renforcement hétérogène

Convergence et généralisation de l'anti-régularisation pour les modèles paramétriques

Jet-Nemotron : modèle de langage efficace avec recherche d'architecture post-neurale

CARFT : Stimuler le raisonnement LLM via l'apprentissage contrastif avec un réglage fin renforcé basé sur une chaîne de pensée annotée

Relier la généralisation et la personnalisation dans la reconnaissance des activités humaines via l'apprentissage en quelques étapes sur l'appareil

FinAgentBench : un ensemble de données de référence pour la recherche d'agents dans les réponses aux questions financières

Utilisation de l'intuition artificielle dans une classification distincte et minimaliste des résumés scientifiques pour la gestion des portefeuilles technologiques

Détecteur de divergence sémantique pour l'identification des falsifications d'images

Solutions d'apprentissage par renforcement quantiques efficaces pour la livraison à la demande du dernier kilomètre

BadPromptFL : une nouvelle menace de porte dérobée pour l'apprentissage fédéré basé sur les invites dans les modèles multimodaux

Fiabilité basée sur l'incertitude : prédiction sélective et déploiement fiable dans l'apprentissage automatique moderne

Analyse en temps réel de données non structurées avec apprentissage automatique sur des architectures hétérogènes

VSI : intégration de sous-titres visuels pour la sélection d'images clés afin d'améliorer la compréhension des longues vidéos

SGDFuse : diffusion guidée par SAM pour la fusion d'images infrarouges et visibles haute fidélité

Un MILP efficace en temps continu pour la planification et l'aménagement intégrés des hangars d'avions

DIRF : un cadre pour la protection de l'identité numérique et la gouvernance des clones dans les systèmes d'IA agentique

COLLAGE : Recherche adaptative basée sur la fusion pour un apprentissage politique augmenté

Raisonnement adaptatif dynamique via MCTS guidé par LLM pour un KGQA efficace et sensible au contexte

Affinement des pseudo-étiquettes de graphes imbriqués pour l'apprentissage par adaptation de domaines d'étiquettes bruyantes

LanternNet : un système en étoile pour détecter et supprimer les populations de lanternes tachetées

RecPS : évaluation des risques liés à la confidentialité pour les systèmes de recommandation

Le réglage fin supervisé sur des données organisées est un apprentissage par renforcement (et peut être amélioré)

Cadre de support multi-agents basé sur le LLM et basé sur le jeu de rôle pour détecter et traiter les biais de communication familiale

PLAME : La conception MSA légère fait progresser le repliement des protéines à partir d'inclusions évolutives

Driver-Net : Fusion multi-caméras pour évaluer la capacité du conducteur à prendre le contrôle des véhicules automatisés

Exploiter les images non étiquetées hors distribution : segmentation sémantique semi-supervisée avec un modèle à vocabulaire ouvert

Les structures visuelles favorisent le raisonnement visuel : résoudre le problème de liaison dans les VLM

Réseaux neuronaux bayésiens précis

Transports en commun pour tous : cartographie d'une connexion équitable entre le vélo et le métro grâce à l'apprentissage par la représentation régionale

Intelligence évolutive : conception de centres de données pour les modèles linguistiques de nouvelle génération

Segmentation d'images avec de grands modèles linguistiques : une étude prospective sur les systèmes de transport intelligents

SAIL : Exécution plus rapide que la démonstration des politiques d'apprentissage par imitation

Simulation du comportement de vote au Parlement européen, pilotée par les personnages, avec de grands modèles linguistiques

Contrôle de l'équilibre bipède avec simulations musculo-squelettiques de la station debout et de la chute du corps entier

Lois d'échelle de la prévision et de la planification du mouvement - Rapport technique

Méthodes efficaces d'apprentissage Q et d'acteur critique pour un apprentissage par renforcement robuste de la récompense moyenne

À Qui le mérite ou la faute ? Attribuer la responsabilité dans les systèmes d'IA modernes

Correspondance évolutive non supervisée des types cellulaires via un transport optimal à entropie minimisée

Classification multi-sorties utilisant une architecture de diaphonie pour le diagnostic des défauts composés des moteurs en condition partiellement étiquetée

SoloSpeech : amélioration de l'intelligence et de la qualité de l'extraction vocale cible grâce à un pipeline génératif en cascade

Piloter le raisonnement du LLM grâce à l'adaptation basée uniquement sur les biais

MetaSTH-Sleep : vers une classification efficace des stades de sommeil en quelques étapes pour la gestion de la santé grâce au méta-apprentissage amélioré par hypergraphe spatio-temporel

InterFeat : un pipeline pour trouver des caractéristiques scientifiques intéressantes

HumaniBench : un cadre centré sur l'humain pour l'évaluation de grands modèles multimodaux

Amélioration de la classification scientifique des textes : modèles affinés avec extension des ensembles de données et vote rigoureux

Testez avant de vous fier : appliquer les tests logiciels pour un apprentissage contextuel fiable

Correspondance des flux d'actions pour l'apprentissage continu des robots

Correction des erreurs d'étiquetage des concepts dans les modèles de goulots d'étranglement conceptuels grâce à l'optimisation des préférences

Nemotron-H : une famille de modèles hybrides de transformateurs Mamba précis et efficaces

Apprentissage fédéré robuste et byzantin utilisant des réseaux antagonistes génératifs

Au-delà de SHAP et des ancres : une expérience à grande échelle sur la façon dont les développeurs s'efforcent de concevoir des explications significatives pour l'utilisateur final

VIPER : Perception visuelle et raisonnement explicable pour la prise de décision séquentielle

DistJoin : un estimateur de cardinalité de jointure découplée basé sur la modulation adaptative des prédicats neuronaux

Or à faible confiance : affiner les échantillons à faible confiance pour un réglage efficace des instructions

Assistance ou perturbation ? Exploration et évaluation de la conception et des compromis d'un soutien proactif à la programmation de l'IA

Les attaques par jeton souple ne peuvent pas auditer de manière fiable le désapprentissage dans les grands modèles de langage

CHIRLA : Identification et réidentification complètes à haute résolution pour une analyse à grande échelle

Réseaux de Fourier de Kolmogorov-Arnold

Position : Les LLM peuvent être de bons tuteurs dans l'enseignement de l'anglais

Prédire le comportement à l'état stationnaire dans des réseaux complexes avec des réseaux neuronaux graphiques

Séparer le mouvement de l'apparence : personnaliser le mouvement via la personnalisation des modèles de diffusion texte-vidéo

Segmentation de l'anatomie cardiaque améliorée par le mouvement via un module d'attention temporelle insérable

Biais dans la prise de décision pour les dilemmes éthiques de l'IA : une étude comparative de ChatGPT et Claude

OmniThink : élargir les limites de la connaissance en écriture automatique grâce à la pensée

DispFormer : un transformateur pré-entraîné intégrant des contraintes physiques pour l'inversion de la courbe de dispersion

Intégration des données probantes dans la conception des systèmes d'aide à la décision basés sur l'IA et l'XAI : un cadre de référence pour les utilisateurs finaux du secteur de la construction

Révéler l'impact des échantillons natifs synthétiques et des stratégies multitâches dans la détection de l'humour et du sarcasme en code hindi-anglais

ÉQuations algébriques différentielles hamiltoniennes à port neuronal pour l'apprentissage compositionnel des réseaux électriques

Diffusions Langevin contrôlées séquentiellement

Apprentissage fédéré préservant la confidentialité via des réseaux antagonistes homomorphes

CAREL : Apprentissage par renforcement guidé par l'instruction avec objectifs auxiliaires intermodaux

Leçons tirées de l'étude du raisonnement latent à deux sauts

HierTOD : un système de dialogue axé sur les tâches et guidé par des objectifs hiérarchiques

Calcul de convolution distribué codé flexible pour une résilience améliorée des retardataires et une stabilité numérique dans les CNN distribués

FACEGroup : Explications contrefactuelles réalisables et exploitables pour l'équité de groupe

ETF : un cadre de traçage d'entités pour la détection d'hallucinations dans le code Résumé

Séparer le mouvement de l'apparence : personnaliser le mouvement via la personnalisation des modèles de diffusion texte-vidéo

Created by

Haebom

Auteur

Huijie Liu, Jingyun Wang, Shuai Ma, Jie Hu, Xiaoming Wei, Guoliang Kang

Contour

Cet article aborde la personnalisation du mouvement, qui génère des vidéos avec des concepts de mouvement spécifiés par un ensemble de clips vidéo partageant le même concept, à l'aide d'un modèle de diffusion (DM). Des études antérieures ont exploré diverses méthodes de représentation et d'intégration de concepts de mouvement dans des modèles de diffusion texte-vidéo pré-entraînés à grande échelle (par exemple, l'apprentissage de LoRA de mouvement et l'utilisation de résidus de bruit latent). Cependant, ces méthodes encodent inévitablement l'apparence des vidéos de référence, ce qui affaiblit la capacité de génération d'apparence. Cet article suit l'approche courante d'apprentissage de LoRA de mouvement pour encoder les concepts de mouvement, mais propose deux stratégies innovantes : le raffinement de l'attention temporelle (TAP) et les autoroutes d'apparence (AH) pour améliorer la séparation action-apparence. Dans le TAP, nous supposons que les intégrations de valeurs pré-entraînées constituent des éléments de base suffisants pour générer de nouveaux mouvements. Nous reconstruisons ces intégrations de valeurs en reconstruisant l'attention temporelle uniquement à partir des LoRA de mouvement afin de générer de nouveaux mouvements. Dans l'AH, nous modifions le point de départ de chaque connexion de saut dans l'U-Net, de la sortie de chaque module d'attention temporelle à la sortie de chaque module d'attention spatiale. Les résultats expérimentaux montrent que la méthode proposée peut générer des vidéos avec des apparences plus cohérentes avec les descriptions textuelles et des mouvements plus cohérents avec les vidéos de référence que les études existantes.

Takeaways, Limitations

•

Takeaways: Nous démontrons que les stratégies d'affinement de l'attention temporelle (TAP) et d'autoroute d'apparence (AH) permettent une meilleure séparation action-apparence que les méthodes existantes, permettant la génération de vidéos dont l'apparence est cohérente avec les descriptions textuelles et les actions avec les vidéos de référence. Ceci contribue au développement de la personnalisation du mouvement à l'aide de modèles de diffusion.

•

Limitations: L'efficacité des stratégies TAP et AH peut être limitée à certains types de modèles de diffusion et d'ensembles de données. Des expériences supplémentaires sont nécessaires sur un éventail plus large de modèles de diffusion et d'ensembles de données. De plus, des évaluations des performances de généralisation pour les vidéos présentant des mouvements extrêmement complexes ou divers sont nécessaires.

Voir le PDF

Made with Slashpage