Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PRÉLUDE : Un référentiel conçu pour exiger une compréhension et un raisonnement globaux sur de longs contextes

Prédicateur : Système agentique papier-vidéo

Hallucination vs interprétation : repenser l'exactitude et la précision dans l'extraction de données assistée par l'IA pour la synthèse des connaissances

Prévisions météorologiques décentralisées via l'apprentissage automatique distribué et la validation de modèles basés sur la blockchain

L'IA biaisée améliore la prise de décision humaine mais réduit la confiance

Traduction personnalisée de caractéristiques pour la reconnaissance d'expressions : une méthode efficace d'adaptation de domaine sans source

Un cadre neurosymbolique pour la détection interprétable des attaques cognitives en réalité augmentée

IAD-R1 : Renforcer la cohérence du raisonnement dans la détection des anomalies industrielles

EvaDrive : Optimisation évolutive des politiques conflictuelles pour la conduite autonome de bout en bout

Comprendre théoriquement l'apprentissage contextuel basé sur les transformateurs pour optimiser le CSMA

ASPD : Déverrouiller le décodage série-parallèle adaptatif en explorant le parallélisme intrinsèque dans les LLM

BiasGym : Les biais fantastiques du LLM et comment les trouver (et les supprimer)

Yan : Génération de vidéos interactives fondamentales

M3-Net : un modèle MLP rentable et sans graphique pour la prévision du trafic

Réseaux corporels sans fil adaptatifs 6G pilotés par LLM : étude et cadre

L'illusion du progrès : réévaluation de la détection des hallucinations dans les masters de droit

Comprendre la dynamique de la capacité du modèle dans l'apprentissage continu

WeChat-YATT : un entraîneur RLHF simple, évolutif et équilibré

Génération de titres personnalisés améliorée grâce à la suppression des faux intérêts issus des commentaires implicites

Apprentissage dynamique du programme d'études tenant compte de la difficulté pour une reconnaissance multimodale robuste des émotions avec modalités manquantes

ÉChos de l'automatisation : l'utilisation croissante des LLM dans la rédaction de l'actualité

SIFThinker : mise au point d'images spatialement conscientes pour le raisonnement visuel

Shuffle-R1 : Cadre RL efficace pour les modèles de langage multimodaux volumineux via un mélange dynamique centré sur les données

Vers une IA agentique incarnée : revue et classification de l'autonomie et de l'interaction des robots pilotés par LLM et VLM

Position : Le modèle actuel de conférence sur l'IA est intenable ! Diagnostic de la crise des conférences centralisées sur l'IA

MSC : un ensemble de données vidéo sur la faune marine avec segmentation ancrée et sous-titrage au niveau du clip

Modèles de langage auto-questionnés

Exploration de l'application des questions-réponses visuelles (QV) pour le suivi des activités en classe

Oranits : attribution de missions et déchargement de tâches dans un ITS basé sur Open RAN à l'aide de l'apprentissage métaheuristique et du renforcement profond

DeepWriter : un assistant d'écriture multimodal basé sur des faits et une base de connaissances hors ligne

Sélection de coresets proportionnelle à la classe pour les données séparables par difficulté

Réponse aux questions spatiales sur l'entrepôt avec LLM Agent

CodeJudgeBench : analyse comparative des compétences LLM en tant que juge pour les tâches de codage

AmpLyze : un modèle d'apprentissage profond pour prédire la concentration hémolytique

EXAONE Path 2.0 : Modèle de base de pathologie avec supervision de bout en bout

GLM-4.1V-Thinking et GLM-4.5V : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

Pourquoi les LLM open source peinent-ils à analyser les données ? Une étude empirique systématique

Encodeur automatique de masque graphique sensible aux écarts

Attaques génératives tenant compte de la structure sémantique pour une transférabilité antagoniste améliorée

Comparaison quantitative des techniques de réglage fin pour les modèles de diffusion latente pré-entraînés dans la génération d'images SAR invisibles

PromptTSS : une approche basée sur l'invite pour la segmentation interactive de séries chronologiques multigranulaires

15 500 secondes : Classification allégée des drones grâce à EfficientNet et à un réglage fin léger

Les attaques rapides révèlent une suppression superficielle des connaissances dans les méthodes de désapprentissage

ÉLagage des données par maximisation de l'information

CCL-LGS : Apprentissage par code contrastif pour l'éclaboussure gaussienne de langage 3D

Préoccupations en matière de sécurité pour les grands modèles linguistiques : une enquête

L'optimisation quantique est-elle prête ? Vers la compression des réseaux neuronaux grâce au calcul quantique adiabatique

Démêler le TCHAD itératif

FreeKV : Optimisation de la récupération du cache KV pour une inférence LLM efficace

LaDi-WM : un modèle mondial basé sur la diffusion latente pour la manipulation prédictive

Rotation groupée et organisée : optimisation de la transformation de rotation pour la quantification gratuite

Bandits multi-armés à budget adaptatif pour l'IoT avec contraintes de ressources dynamiques

Transformateurs de vision dans l'agriculture de précision : une étude approfondie

Prévisions de séries chronologiques orientées vers les objectifs : conception du cadre de base

CAPTURe : Évaluation du raisonnement spatial dans les modèles de langage visuel via le comptage d'objets occultés

FinSage : un système RAG multi-aspects pour les réponses aux questions sur les déclarations financières

GraspClutter6D : un ensemble de données réelles à grande échelle pour une perception et une compréhension robustes dans les scènes encombrées

Hyperflux : l'élagage révèle l'importance des poids

ToolACE-R : formation itérative et perfectionnement adaptatif pour l'apprentissage des outils

UniOcc : une référence unifiée pour la prévision et la prédiction de l'occupation en conduite autonome

VectorFit : ajustement adaptatif des vecteurs singuliers et biaisés des modèles de base pré-entraînés

Décodage de bits : déverrouillage des cœurs de tenseurs pour les LLM à contexte long avec cache KV à faible bit

Analyse des sentiments explicables avec DeepSeek-R1 : performances, efficacité et apprentissage en quelques clics

Apprentissage continu pour de multiples modalités

Faire progresser MAPF vers le monde réel : un banc d'essai réaliste multi-agents évolutif (SMART)

Fusion de LED : atténuation des conflits sécurité-utilité lors de la fusion de modèles avec localisation-élection-disjointe

Amélioration de la généralisation inter-problèmes dans un solveur combinatoire neuronal basé sur la diffusion via l'adaptation du temps d'inférence

Partage rythmique : un paradigme bio-inspiré pour l'apprentissage adaptatif à zéro coup dans les réseaux neuronaux

Mesurer la diversité dans les ensembles de données synthétiques

Modélisation de la rétroaction différée avec fonctions d'influence

Roulette de déploiement : une approche d'inférence probabiliste pour la mise à l'échelle temporelle des LLM à l'aide de méthodes de Monte-Carlo basées sur les particules

CLoQ : Amélioration du réglage fin des LLM quantifiés via l'initialisation LoRA calibrée

Fleurs-SLU : une référence massivement multilingue pour la compréhension du langage parlé

EDO neuronales interprétables pour la découverte de réseaux de régulation génétique en cas de perturbations

Un transformateur léger avec attention croisée en phase uniquement pour une authentification biométrique invariante en fonction de l'éclairage

Comprendre les modèles de vision basés sur les transformateurs grâce à l'inversion

INSIGHT : Analyse d'images médicales explicables et faiblement supervisées

Visual SLAMMOT prenant en compte plusieurs modèles de mouvement

Une approche sans formation pour le transfert de style musical avec des modèles de diffusion latente

Optimisation multi-objectifs dans l'exploration de l'espace de conception du processeur : l'attention est tout ce dont vous avez besoin

DiRW : apprentissage de digraphes sensible au chemin pour l'hétérophilie

Diversification des comportements politiques grâce à la curiosité comportementale extrinsèque

Verbalisation de la mémoire épisodique à l'aide de représentations hiérarchiques de l'expérience robotique tout au long de la vie

Les réseaux neuronaux généralisent sur des données de faible complexité

Tests de cohérence basés sur les connaissances des grands modèles linguistiques

Algorithme d'ensemble de sécurité implicite pour un apprentissage par renforcement prouvé comme sûr

Un modèle explicable basé sur un transformateur pour la détection des e-mails d'hameçonnage : une approche basée sur un modèle de langage étendu

Réduction des coûts de communication pour le comptage de sous-graphes sous confidentialité différentielle locale via des fonctions de hachage

Erreurs de calcul et de raisonnement mathématiques par grands modèles de langage

OpenCUA : fondements ouverts pour les agents informatiques

Rapport technique Compass-Thinker-7B

TextQuests : Dans quelle mesure les LLM sont-ils performants en matière de jeux vidéo textuels ?

Sur la définition de l'intelligence

Au-delà de la précision : comment la sensibilité métacognitive de l'IA améliore la prise de décision assistée par l'IA

LAPO : internalisation de l'efficacité du raisonnement via l'optimisation des politiques adaptatives à la longueur

FAIRGAME : un cadre pour la reconnaissance des biais des agents IA utilisant la théorie des jeux

MedRep : Représentation de concepts médicaux pour les modèles de base des dossiers médicaux électroniques généraux

Un optimiseur à clé aléatoire pour l'optimisation combinatoire

Apprenants fédérés en formation croisée pour une généralisation robuste sous hétérogénéité des données

Exploiter les grands modèles linguistiques pour les jugements pertinents dans la recherche de dossiers juridiques

Une approche sans formation pour le transfert de style musical avec des modèles de diffusion latente

Created by

Haebom

Auteur

Heehwan Wang, Joonwoo Kwon, Sooyoung Kim, Shinjae Yoo, Yuewei Lin, Jiook Cha

Contour

Cet article propose Stylus, un nouveau framework sans entraînement qui effectue le transfert de style musical en manipulant directement la couche d'auto-attention d'un modèle de diffusion latente (LDM) pré-entraîné. Fonctionnant dans le domaine du spectrogramme Mel, Stylus transfère les styles musicaux en remplaçant les représentations tonales et phonétiques du contenu audio par des représentations de références stylistiques sans aucun réglage fin. Il intègre la préservation des requêtes, la mise à l'échelle guidée inspirée du CFG, l'interpolation multi-styles et la reconstruction préservant la phase afin d'améliorer la qualité et la contrôlabilité du style. Il améliore significativement la qualité perceptuelle et la préservation de la structure par rapport aux travaux existants, tout en restant léger et facile à déployer. Cette étude met en évidence le potentiel de la manipulation de l'attention par diffusion pour une génération musicale efficace, haute fidélité et interprétable sans entraînement.

Takeaways, Limitations

•

Takeaways:

◦

Le transfert de styles musicaux sans données de formation est possible en exploitant des modèles pré-entraînés.

◦

Amélioration de la qualité de perception et de la préservation structurelle par rapport aux méthodes existantes

◦

Présentation d'un framework efficace, léger et facile à déployer.

◦

Amélioration de la qualité et du contrôle du style grâce à la préservation des requêtes, à la mise à l'échelle des conseils inspirés de CFG, et bien plus encore.

◦

Démontrer l'utilité de la manipulation de l'attention basée sur la diffusion

•

Limitations:

◦

La divulgation du code sera effectuée après l'acceptation du document.

◦

Une évaluation plus approfondie des performances de transfert entre différents genres et styles musicaux est nécessaire.

◦

Une analyse comparative avec d’autres modèles de génération musicale est nécessaire.

◦

Manque d’analyse quantitative de la performance de facteurs supplémentaires, tels que la mise à l’échelle des orientations inspirées du CFG.

Voir le PDF

Made with Slashpage