Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Conversion de texte en SQL de bout en bout avec sélection d'ensembles de données : Exploiter les LLM pour la génération de requêtes adaptatives

Fourier-VLM : compression des jetons de vision dans le domaine fréquentiel pour les grands modèles vision-langage

LAG : Génération Logique Augmentée d'un point de vue cartésien

Echo : Découplage de l'inférence et de l'entraînement pour l'alignement RL à grande échelle sur des essaims hétérogènes

FDC-Net : Repenser l'association entre la suppression des artefacts EEG et l'informatique affective multidimensionnelle

ÉQuité dans la synthèse vocale dysarthrique : comprendre les biais intrinsèques dans le clonage de la parole dysarthrique à l'aide de F5-TTS

RCR-Router : routage contextuel efficace et sensible aux rôles pour les systèmes LLM multi-agents avec mémoire structurée

DS$^2$Net : réseau de supervision approfondie sémantique détaillée pour la segmentation d'images médicales

LLMDistill4Ads : Utilisation d'encodeurs croisés pour extraire les signaux LLM et recommander des mots-clés aux annonceurs sur eBay

Quand les voitures ont des stéréotypes : Audit des biais démographiques dans les objets à partir de modèles texte-image

HiTeC : Apprentissage contrastif hiérarchique sur hypergraphe à attributs textuels avec augmentation sémantique

SpectrumFM : redéfinir la cognition spectrale grâce à la modélisation des fondations

Chirurgie dynamique assistée par robot avec segmentation sémantique hiérarchique incrémentale de classe

Un nouveau modèle de langage pour prédire les résultats des événements indésirables graves dans les essais cliniques à partir de leurs enregistrements prospectifs

Un peu de liberté mène loin : algorithmes classiques et quantiques pour l'apprentissage par renforcement dans un modèle génératif

ALLoyM : un modèle de langage étendu pour la prédiction du diagramme de phase des alliages

Apprentissage du visème phonétique dépendant du contexte pour améliorer l'animation faciale 3D pilotée par la parole

Les modèles de la Vision Foundation sont-ils prêts pour l’enregistrement d’images médicales prêtes à l’emploi ?

SystolicAttention : fusion de FlashAttention au sein d'un seul tableau systolique

RAPNet : un réseau neuronal convolutif adaptatif à champ réceptif pour le pansharpening

AMix-1 : une voie vers un modèle de base protéique évolutif au cours des tests

Combler le dernier kilomètre de la prédiction : améliorer la prévision des séries chronologiques grâce à la correspondance conditionnelle des flux guidés

Speckle2Self : réduction du speckle par ultrasons auto-supervisée sans données propres

LIRA : Déduction de la segmentation dans les grands modèles multimodaux avec assistance de région entrelacée locale

S'attaquer aux effets dévastateurs de l'empoisonnement des données à tâche unique dans l'apprentissage continu sans exemple

Modèles de base et modèles spécifiques au domaine : comparaison des performances, fusion et explicabilité dans la reconnaissance faciale

Optimalité probabiliste pour la mise à l'échelle du temps d'inférence

ARAG : Génération Augmentée de Récupération Agentique pour une Recommandation Personnalisée

Explorer les compromis de conception d'adaptateur pour la génération de musique à faibles ressources

CycleDistill : Amorçage de la traduction automatique à l'aide de LLM avec distillation cyclique

Détection robuste des anomalies dans le trafic réseau : évaluation des modèles d'apprentissage automatique sur CICIDS2017

Clonage de comportement robuste via la régularisation Lipschitz globale

K-Means à noyaux multiples induits par des boules granulaires

DRAMA-X : Une analyse comparative précise de la prédiction des intentions et du raisonnement sur les risques pour la conduite

MMET : un transformateur multi-entrées et multi-échelles pour une résolution efficace des EDP

Une méthode d'optimisation en deux étapes pour la détection magnétique quantique à électron unique à large portée

Transformateur de téléconnexion basé sur la physique pour les prévisions sous-saisonnières à saisonnières à l'échelle mondiale

Compromis générés par l'IA pour la formation de coalitions

MLOps avec microservices : une étude de cas sur le domaine maritime

Le gagnant remporte tout pour la prévision probabiliste multivariée des séries chronologiques

Des bonds au-delà de ce qui est visible : Raisonnement renforcé Génération augmentée pour les notes cliniques

Apprendre à diagnostiquer en privé : LLMs optimisés par DP pour la classification des rapports de radiologie

HERGC : Représentation d'experts hétérogènes et complétion générative pour graphes de connaissances multimodaux

Loup-garou verbal : engagez les utilisateurs avec un cadre de jeu de loup-garou agentique verbalisé

MaCP : adaptation minimale mais puissante via la projection cosinus hiérarchique

CADRE : Assurance personnalisable de la disponibilité des données dans un apprentissage fédéré préservant la confidentialité

FP4 All the Way : Formation entièrement quantifiée des LLM

Amélioration des résultats LLM contre les attaques de jailbreak grâce à l'intégration de modèles experts

Extraction de connaissances probabilistes à partir de grands modèles de langage pour la paramétrisation des réseaux bayésiens

RIDGECUT : Apprentissage du partitionnement de graphes avec anneaux et coins

Perte uniforme vs. Optimisation spécialisée : une analyse comparative de l'apprentissage multitâche

Les stratégies d’investissement financier basées sur le LLM peuvent-elles surpasser le marché à long terme ?

Une approche d'apprentissage profond multimodal pour la prédiction de la forme de la matière blanche en tractographie IRM de diffusion

La parcimonie surpasse les projections de rang inférieur dans l'adaptation à quelques coups

Apprentissage de la représentation multimodale des protéines hiérarchiques bidirectionnelles

Comment la post-formation transforme les LLM : une vision mécaniste de la connaissance, de la véracité, du refus et de la confiance

$\Mu$KE : Matryoshka Édition de connaissances non structurées de grands modèles de langage

Apprendre les simulateurs 3D-gaussiens à partir de vidéos RVB

Apprendre la préhension adaptative et adroite à partir de démonstrations uniques

Une théorie de l'apprentissage avec une chaîne de pensée autorégressive

FunGraph : graphiques de scène 3D prenant en compte les fonctionnalités pour l'interaction avec les scènes à l'aide du langage

De la réutilisation à la prévision : accélérer les modèles de diffusion avec TaylorSeers

ElementaryNet : un réseau neuronal non stratégique pour prédire le comportement humain dans les jeux de forme normale

Raisonnement collectif chez les étudiants en master : un cadre pour la validation des réponses sans vérité fondamentale

Synthèse d'images médicales optimisée par l'IA : enseignements tirés du défi MedVQA-GI avec CLIP, diffusion stable finement réglée et Dream-Booth + LoRA

Prédire la dépression lors des entretiens de sélection grâce à une collaboration interactive multi-thématique

Raisonnement de scène-graphe guidé par schéma basé sur un système de modèle de langage multi-agents de grande taille

MQuant : Libérer le potentiel d'inférence des grands modèles linguistiques multimodaux grâce à la quantification statique complète

Atténuer les oscillations du trafic dans les flux de trafic mixtes grâce au contrôle prédictif évolutif de Koopman profond

Améliorer le classement de votre modèle sur Chatbot Arena grâce au trucage des votes

FIT-Print : Vers une vérification de la propriété du modèle résistante aux fausses déclarations via une empreinte digitale ciblée

Softplus Attention avec repondération améliore l'extrapolation de longueur dans les grands modèles linguistiques

Rang d'Ehrenfeucht-Haussler et chaîne de pensée

WebWalker : Analyse comparative des LLM en matière de navigation Web

IA générative pour l'animation cellulaire : une enquête

Vers un Cloud intelligent et sécurisé : une défense proactive optimisée par un modèle de langage étendu

Augmentation de MomentMix avec DETR sensible à la longueur pour une récupération de moment robuste dans le temps

POEX : Vers des attaques de jailbreak exécutables de politique contre les robots basés sur LLM

B-VLLM : un modèle de langage Vision Large avec des jetons spatio-temporels équilibrés

LoRA.rar : Apprendre à fusionner des LoRA via des hyperréseaux pour la génération d'images conditionnées par sujet

Comprendre et atténuer la mémorisation dans les modèles génératifs via la netteté des paysages de probabilité

Piloter la personnalisation des textes scientifiques pilotée par l'IA pour le grand public

Conversion vocale Zero-Shot via un ensemble de timbres sensible au contenu et une correspondance de flux conditionnelle

EfficientEQA : une approche efficace pour répondre à des questions incarnées à vocabulaire ouvert

UoMo : un modèle universel de prévision du trafic mobile pour l'optimisation des réseaux sans fil

MaCP : adaptation minimale mais puissante via la projection cosinus hiérarchique

Exploration de la représentation spatiale pour améliorer le raisonnement LLM dans la navigation aérienne vision-langage

Un examen plus approfondi du désapprentissage automatique pour les grands modèles linguistiques

Ajustement in situ des modèles de faune sauvage dans les pièges photographiques compatibles avec l'IoT pour une adaptation efficace

Pré-entraînement au langage EEG pour un phénotypage clinique hautement efficace en termes d'étiquetage

Une pratique de post-formation sur Llama-3 70B avec une sélection optimale du ratio de mélange de langues supplémentaires

Modèles de diffusion basés sur les scores et dirigés par la récompense via q-Learning

La chaîne de pensée pense toujours vite : APriCoT aide à penser lentement

Enquête sur le modèle MoErging : recyclage et routage parmi les experts spécialisés pour l'apprentissage collaboratif

Biais IA-IA : les grands modèles de langage favorisent les communications générées par de grands modèles de langage

LVBench : un benchmark de compréhension des vidéos extrêmement longues

Des pics aux queues lourdes : dévoiler l'évolution spectrale des réseaux neuronaux

Verre brisé, caméras défaillantes : simulation d'échantillons contradictoires basés sur la physique pour les systèmes de conduite autonome

Surveillance de l'exécution et application de l'équité conditionnelle dans les IA génératives

Sur l'efficacité des échantillons d'abstractions et la formation de récompenses basées sur le potentiel dans l'apprentissage par renforcement

Génération de bandes sonores vidéo en alignant les émotions et les limites temporelles

Created by

Haebom

Auteur

Serkan Sulun, Paula Viana, Matthew EP Davies

Contour

EMSYNC est un modèle de génération de musique symbolique basé sur la vidéo, qui génère une musique adaptée au contenu émotionnel et aux limites temporelles d'une vidéo. Il suit un cadre en deux étapes : un classificateur d'émotions vidéo pré-entraîné extrait les caractéristiques émotionnelles, et un générateur de musique conditionnelle génère des séquences MIDI basées sur ces indices émotionnels et temporels. Plus précisément, nous introduisons un nouveau mécanisme de conditionnement temporel, le décalage des limites, qui permet de prédire et d'aligner les accords musicaux sur les transitions de scène. Contrairement aux modèles existants, nous maintenons un codage basé sur les événements, garantissant un contrôle précis du timing et des nuances musicales expressives. De plus, nous proposons un schéma de mappage pour la connexion entre un classificateur d'émotions vidéo, qui génère des catégories émotionnelles discrètes, et un générateur MIDI conditionnel aux émotions, qui fonctionne sur des entrées continues de valence-éveil. Lors de tests d'écoute subjective, EMSYNC a surpassé les modèles de pointe sur toutes les mesures subjectives, tant pour les auditeurs avertis que pour les auditeurs occasionnels.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons un nouveau modèle qui génère une musique qui correspond précisément au contenu émotionnel et aux limites temporelles d'une vidéo.

◦

Alignement temporel sophistiqué et subtilité musicale grâce au décalage des limites.

◦

Contrôle du timing précis grâce à la maintenance de l'encodage basé sur les événements.

◦

Surpasse les modèles de pointe dans les tests d'écoute subjectifs.

◦

Proposer un schéma de mappage efficace entre les catégories d'émotions discrètes et les entrées d'éveil de valence à valeur continue.

•

Limitations:

◦

Cet article n'aborde pas spécifiquement Limitations. Des analyses et évaluations plus approfondies sont nécessaires pour élucider Limitations concernant les performances de généralisation du modèle, son applicabilité à divers genres vidéo et son coût de calcul.

Voir le PDF

Made with Slashpage