Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VeOmni : Adaptation de la formation à n'importe quel modèle de modalité avec un zoo de recettes distribué centré sur le modèle

Dynaword : du one-shot aux jeux de données développés en continu

Prévision : Quand prévoir ? Accélération des modèles de diffusion avec la méthode de Taylor basée sur la confiance

Proof2Hybrid : synthèse automatique de référence mathématique pour les problèmes centrés sur la preuve

Chaîne d'agents collaborative pour la synergie des connaissances récupérées par paramètres

BlockA2A : Vers une interopérabilité agent-agent sécurisée et vérifiable

SpectrumWorld : Fondation d'intelligence artificielle pour la spectroscopie

Gestion de l'escalade dans les modèles de langage volumineux prêts à l'emploi

FGBench : un ensemble de données et une référence pour le raisonnement sur les propriétés moléculaires au niveau des groupes fonctionnels dans les grands modèles de langage

Cartographie Schema.org fondamentale pour un graphe de connaissances juridiques : représentation des normes juridiques brésiliennes sous forme d'œuvres FRBR

D3 : Détection vidéo générée par l'IA sans formation à l'aide de caractéristiques de second ordre

SMART-Editor : un framework multi-agents pour une édition de conception de type humain avec intégrité structurelle

Fusion vision-langage pour la conduite autonome en temps réel : attention croisée centrée sur l'objectif de la caméra, de la carte HD et des points de cheminement

MoCHA : Raisonnement vision-langage avancé avec connecteur MoE et attention de groupe hiérarchique

Améliorez la distillation auto-supervisée des ensembles de données via la paramétrisation, l'augmentation prédéfinie et l'approximation

Mémorisation dans les grands modèles linguistiques affinés

De l'intrication à l'alignement : décomposition de l'espace de représentation pour l'adaptation de domaine de séries temporelles non supervisées

Le Xeno Sutra : peut-on attribuer un sens et une valeur à un texte « sacré » généré par l’IA ?

Apprentissage post-achèvement pour les modèles linguistiques

Rainbow Noise : Test de résistance des détecteurs multimodaux de mèmes nocifs sur les contenus LGBTQ

Préhension volumétrique équivariante

SemiSegECG : une référence multi-ensembles de données pour la segmentation sémantique semi-supervisée dans la délimitation d'ECG

FedSA-GCL : un framework d'apprentissage de graphes fédérés semi-asynchrone avec agrégation personnalisée et diffusion sensible aux clusters

Des taux d'apprentissage élevés permettent simultanément d'obtenir une robustesse aux corrélations parasites et une compressibilité

R-Stitch : assemblage dynamique de trajectoires pour un raisonnement efficace

P3SL : Apprentissage fractionné personnalisé préservant la confidentialité sur des appareils périphériques hétérogènes

Document Haystack : une vision multimodale de compréhension d'images/documents à long contexte, référence LLM

Regroupement de graphes évolutifs à attributs manquants via la différenciation de voisinage

TaylorPODA : une méthode basée sur l'expansion de Taylor pour améliorer les attributions post-hoc pour les modèles opaques

Diviser puis régner : un interpolateur hiérarchique piloté par cluster pour les graphes à attributs manquants

$\Texttt{Droid}$ : une suite de ressources pour la détection de code généré par l'IA

Raisonnement ou mémorisation ? Résultats peu fiables de l'apprentissage par renforcement en raison de la contamination des données.

Fondements de principe pour l'optimisation des préférences

ÉValuation des LLM sur les prévisions du monde réel par rapport aux prévisionnistes experts

STRUCTSENSE : un cadre agentique indépendant des tâches pour l'extraction d'informations structurées avec évaluation et analyse comparative en temps réel

S2FGL : Apprentissage spatial et spectral de graphes fédérés

AI4Research : une étude sur l'intelligence artificielle pour la recherche scientifique

Pourquoi les LLM open source peinent-ils à analyser les données ? Une étude empirique systématique

Simulation de trafic à long terme avec mouvement autorégressif entrelacé et génération de scénarios

Renforcer les VLM pour utiliser des outils de raisonnement visuel détaillé sous contraintes de ressources

Diffusion causalement dirigée pour la génération automatisée de contrefactuels vidéo

Qu'est-ce qui fait un bon générateur de mots pour la génération de discours centrée sur le LLM ? Une étude systématique

ChineseHarm-Bench : un outil de référence pour la détection des contenus nuisibles en Chine

ProRefine : Affinement des invites d'inférence avec retour textuel

SALAD : Évaluation systématique du désapprentissage automatique dans la conception matérielle assistée par LLM

MetaGen Blended RAG : Débloquer la précision zéro coup pour les questions-réponses dans des domaines spécialisés

Vers la révélation de l'efficacité du réglage fin à petite échelle dans l'apprentissage par renforcement de type R1

LightRetriever : une architecture de récupération hybride basée sur LLM avec une inférence de requête 1 000 fois plus rapide

Les grands modèles multimodaux peuvent-ils comprendre les scènes agricoles ? Analyse comparative avec AgroMind

Exploiter les modèles vision-langage pour l'ancrage visuel et l'analyse de l'interface utilisateur automobile

Intégration temporelle entièrement optique médiée par des antennes thermiques sub-longueur d'onde

GRILL : Restauration du signal de gradient dans les couches mal conditionnées pour améliorer les attaques adverses sur les auto-encodeurs

JointDiT : Amélioration de la modélisation des joints en profondeur RVB avec des transformateurs de diffusion

FFCBA : attaques de porte dérobée à étiquette propre et à cible complète basées sur les fonctionnalités

Biais de performance multilingue des grands modèles linguistiques en éducation

NoWag : un cadre unifié pour la compression préservant la forme des grands modèles linguistiques

Reconstruire les trajectoires du sepsis à partir de rapports de cas cliniques à l'aide de LLM : le corpus de séries chronologiques textuelles sur le sepsis

Formation efficace de modèles génératifs via l'échauffement de représentations intégrées

Déroulement profond bayésien piloté par l'attention graphique pour l'imagerie lidar monophotonique à double pic

Recherche d'architecture spectrale pour les modèles de réseaux neuronaux

Améliorer la correspondance stéréo omnidirectionnelle avec un modèle de base de profondeur pré-entraîné

ADS-Edit : un ensemble de données d'édition de connaissances multimodales pour les systèmes de conduite autonome

Correspondance des scores potentiels : élimination des biais lors de l'échantillonnage de structures moléculaires avec guidage par énergie potentielle

Apprentissage d'ensemble pour les grands modèles de langage dans la génération de texte et de code : une enquête

Apprentissage augmenté des déclencheurs adverses

ETCH : Généralisation de l'ajustement corporel aux humains vêtus via l'étanchéité équivariante

M2S : jailbreak multi-tours vers un seul tour en Red Teaming pour les LLM

Un cadre causal pour aligner les mesures de qualité d'image et la robustesse des réseaux neuronaux profonds

PennyLang : génération de code quantique basée sur LLM avec un nouvel ensemble de données centré sur PennyLang

DexGraspVLA : un cadre vision-langage-action pour une compréhension adroite générale

Entropy-Lens : la signature informationnelle des calculs de transformateurs

CAMEF : Prévisions financières multimodales causales augmentées et pilotées par événements, intégrant des modèles de séries chronologiques et des annonces macroéconomiques importantes

Façonner des récompenses éparses dans l'apprentissage par renforcement : une approche semi-supervisée

AdaMCoT : Repenser le raisonnement factuel interlinguistique grâce à une chaîne de pensée multilingue adaptative

Positionnement sans fil piloté par l'IA : principes fondamentaux, normes, état de l'art et défis

CHIRP : une référence précise pour l'évaluation des réponses ouvertes dans les modèles vision-langage

Acteur-critique doux à récompense moyenne

Une vidéo vaut mille images : exploration des dernières tendances en matière de création de vidéos longues

Du texte à la trajectoire : exploration de la représentation et de la décomposition de contraintes complexes dans l'apprentissage par renforcement sûr

Parler à DINO : relier les piliers de la vision auto-supervisée au langage pour une segmentation du vocabulaire ouvert

SANDWICH : Vers un substitut de traçage de rayons neuronaux sans fil, hors ligne, différentiable et entièrement entraînable

IDÉATEUR : Jailbreaking et benchmarking de grands modèles vision-langage en les utilisant eux-mêmes

Cobblestone : une approche « diviser pour mieux régner » pour automatiser la vérification formelle

Contraction efficace des croyances lors de l'assemblée générale annuelle : un voyage au-delà du royaume finitaire (rapport technique)

Au-delà des images : fusion adaptative de données visuelles et textuelles pour la classification des aliments

TAPAS : Dérivation rapide et automatique de stratégies parallèles de tenseurs pour les grands réseaux neuronaux

KCR : Résoudre les conflits de connaissances à long contexte grâce au raisonnement dans les LLM

Le raisonnement par chaîne de pensée des masters de droit est-il un mirage ? Une approche de la distribution des données

CADDesigner : conception de modèles CAO basés sur un agent polyvalent

Attention à l'écart : la divergence entre les tâches humaines et celles générées par le LLM

RL-PLUS : Contrer l'effondrement des limites de capacité des LLM en apprentissage par renforcement grâce à l'optimisation des politiques hybrides

Maximisation douce basée sur un modèle de mesures appropriées de la puissance humaine à long terme

Tiny-BioMoE : un modèle d'intégration léger pour l'analyse des biosignaux

Système de réécriture des termes AlphaPhysics pour la notation des expressions algébriques aux examens de physique

Modélisation de la logique modale déontique dans le système de programmation par ensemble de prédicats et de réponses orienté vers les objectifs s(CASP)

Optimisation automatique des invites pour la construction de graphes de connaissances : enseignements tirés d'une étude empirique

La théorie de la conscience cognitive unifiée pour les modèles de langage : sémantique d'ancrage, seuils d'activation et raisonnement émergent

Raisonnement abductif basé sur la cohérence sur les erreurs de perception de plusieurs modèles pré-entraînés dans de nouveaux environnements

Améliorer la résilience des systèmes d'IA : formulation et garantie de la résilience LSTM basée sur la théorie du contrôle

UFEval : évaluation unifiée à granularité fine avec généralisation des tâches et des aspects

SpA2V : Exploiter les signaux auditifs spatiaux pour la génération de vidéos spatiales pilotées par l'audio

Created by

Haebom

Auteur

Kien T. Pham, Yingqing He, Yazhou Xing, Qifeng Chen, Long Chen

Contour

Cet article présente SpA2V, un nouveau framework de génération vidéo audio qui exploite les indices auditifs spatiaux pour générer des vidéos réalistes et précises. Contrairement aux méthodes existantes qui se concentrent principalement sur les informations sémantiques, comme le type de son, SpA2V exploite explicitement les indices spatiaux dérivés de propriétés physiques, comme l'intensité sonore et la fréquence. SpA2V se compose de deux étapes : une étape de planification vidéo audioguidée qui génère une mise en page de scène vidéo (VSL) à partir des indices spatiaux et sémantiques de l'audio, et une étape de génération vidéo basée sur la mise en page qui génère une vidéo en utilisant un modèle de diffusion pré-entraîné comme condition sur la VSL. Les résultats expérimentaux démontrent que SpA2V excelle dans la génération de vidéos réalistes, sémantiquement et spatialement alignées avec l'audio d'entrée.

Takeaways, Limitations

•

Takeaways:

◦

Nous soulignons l’importance des indices auditifs spatiaux dans la génération de vidéos audio et présentons un nouveau cadre pour les utiliser efficacement.

◦

Surmonter les limites des méthodes existantes et obtenir des performances de génération vidéo avec une cohérence sémantique et spatiale élevée.

◦

Utilisation efficace du VSL comme représentation intermédiaire comblant le fossé entre les modalités audio-vidéo.

◦

Mise en œuvre d'une génération vidéo efficace et efficiente en exploitant des modèles de diffusion pré-entraînés.

•

Limitations:

◦

L'évaluation des performances de SpA2V a peut-être été réalisée dans un cadre expérimental limité, et une évaluation des performances pour une gamme plus large d'audio et de scénarios est nécessaire.

◦

Les performances du MLLM utilisé dans l’étape de génération VSL peuvent affecter les performances globales de SpA2V.

◦

Dans les signaux audio complexes ou lorsque différentes sources sonores sont mélangées, la précision de l'extraction des repères spatiaux peut diminuer.

◦

Les cadres actuels peuvent manquer de prise en compte de la cohérence temporelle dans la génération de vidéos.

Voir le PDF

Made with Slashpage