Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉDition couleur guidée par texte sans formation avec transformateur de diffusion multimodale

SPARC : Modèle de recherche multi-intérêts adaptatif probabiliste souple via des livres de codes pour système de recommandation

Quand les deepfakes semblent réels : détection des visages générés par l'IA avec des données non étiquetées en raison de problèmes d'annotation

TempOpt – Apprentissage non supervisé des relations d'alarme pour les réseaux de télécommunications

Une étude sur la génération de texte parallèle : du décodage parallèle aux modèles de langage de diffusion

Adaptation transférable du modèle vision-langage, indépendant du modèle, pour une généralisation efficace du faible au fort

Yan : Génération de vidéos interactives fondamentales

MLLM-CBench : une référence complète pour l'optimisation continue des LLM multimodaux avec analyse du raisonnement par chaîne de pensée

VGGSounder : Évaluations audiovisuelles pour modèles de fondation

Capacités du GPT-5 sur le raisonnement médical multimodal

C-MAG : Graphiques attribués multimodaux en cascade pour la prédiction des maillons de la chaîne d'approvisionnement

Au-delà de dix tours : Débloquer la recherche agentique à long terme avec le RL asynchrone à grande échelle

MIND : Un cadre de débruitage adaptatif au bruit pour les images médicales intégrant un transformateur multi-échelle

FlexCTC : Décodage de faisceau CTC optimisé par GPU avec capacités contextuelles avancées

L'équité de la reconnaissance automatique de la parole : un regard philosophique

Généralisation des lois d'échelle pour les modèles de langage denses et clairsemés de grande taille

Memp : exploration de la mémoire procédurale des agents

InfoCausalQA : les modèles peuvent-ils effectuer un raisonnement causal non explicite basé sur une infographie ?

Analyse comparative de modèles d'intégration moléculaire pré-entraînés pour l'apprentissage de la représentation moléculaire

Optimisation des requêtes uniquement pour les systèmes de recommandation

Chemist Eye : un système basé sur un modèle de langage visuel pour la surveillance de la sécurité et la prise de décision des robots dans les laboratoires autonomes

GTPO et GRPO-S : mise en forme des récompenses au niveau des jetons et des séquences avec entropie des politiques

FairPOT : équilibrer les performances de l'AUC et l'équité avec un transport optimal proportionnel

GTPO : Optimisation des politiques basée sur la trajectoire dans les grands modèles linguistiques

Bloc : Équilibrer la charge de travail dans le LLM avec le contexte, les connaissances et la planification prédictive

Estimation des risques de frontière du pire cas des LLM à pondération ouverte

LiteFat : Apprentissage graphique spatio-temporel léger pour la détection de la fatigue du conducteur en temps réel

DRWKV : Mise au point sur les bords des objets pour améliorer les images en basse lumière

Un optimiseur de serpent amélioré multi-stratégie pour la planification de trajectoires de drones tridimensionnels et les problèmes d'ingénierie

Estimateur de densité de taille de fragment pour la fracture induite par retrait basé sur un réseau neuronal basé sur la physique

GLM-4.1V-Thinking et GLM-4.5V : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

WebArXiv : Évaluation d'agents multimodaux sur des tâches arXiv invariantes dans le temps

Audio-3DVG : audio unifié – fusion de nuages de points pour une mise à la terre visuelle 3D

Au-delà de la saisie semi-automatique : concevoir CopilotLens pour des agents de codage d'IA transparents et explicables

OC-SOP : Amélioration de la prédiction d'occupation sémantique 3D basée sur la vision par la connaissance centrée sur l'objet

SWA-SOP : Attention à la fenêtre spatialement consciente pour la prédiction sémantique de l'occupation dans la conduite autonome

L'importance d'être paresseux : dépasser les limites de l'apprentissage continu

Capture de mouvement humain à partir de capteurs inertiels lâches et épars avec des modèles de diffusion sensibles aux vêtements

HVL : Segmentation semi-supervisée exploitant la synergie hiérarchique vision-langage avec alignement dynamique des requêtes textuelles et spatiales

Segmentation panoptique LiDAR à ensemble ouvert guidée par l'apprentissage sensible à l'incertitude

Empoisonner une fois, contrôler n'importe où : portes dérobées visuelles en texte clair dans les agents mobiles basés sur VLM

MGDFIS : stratégie d'intégration de caractéristiques globales détaillées à plusieurs échelles pour la détection de petits objets

Stratégies d'accélération et d'optimisation des modèles d'apprentissage profond pour les systèmes de recommandation en temps réel

ChineseHarm-Bench : un outil de référence pour la détection des contenus nuisibles en Chine

Transition progressive de l'opérateur d'optimalité Bellman à l'opérateur Bellman dans l'apprentissage par renforcement en ligne

Sarc7 : Évaluation de la détection et de la génération du sarcasme avec sept types et des techniques basées sur les émotions

Exploration des lois d'échelle pour les modèles de fondation du DSE

MapStory : Prototypage d'animations cartographiques modifiables avec des agents LLM

Enseigner de grands modèles linguistiques pour maintenir la fidélité contextuelle via des tâches synthétiques et un apprentissage par renforcement

Les grands modèles multimodaux peuvent-ils comprendre les scènes agricoles ? Analyse comparative avec AgroMind

Arrêt des GNN récurrents et calcul gradué $\mu$

Démarrages à chaud de l'apprentissage profond pour l'optimisation de la trajectoire de la Station spatiale internationale

EmoVoice : modèle de synthèse vocale émotionnelle basé sur LLM avec invite de texte libre

FedRecon : Reconstruction des modalités manquantes dans les environnements distribués hétérogènes

De l'IA-Slop au IA-Polish ? Aligner les modèles linguistiques grâce aux récompenses d'écriture basées sur la correction et au calcul du temps d'examen.

GraspClutter6D : un ensemble de données réelles à grande échelle pour une perception et une compréhension robustes dans les scènes encombrées

Mosaïque : Élagage de projection composite pour des LLM économes en ressources

CO-Bench : Analyse comparative des agents de modèles de langage dans la recherche d'algorithmes pour l'optimisation combinatoire

Transformateur FT : transformateur résilient et fiable avec une attention aux pannes de bout en bout

La normativité illusoire de la régulation de l'IA fondée sur les droits

Changement de perspective : vecteurs d'orientation pour une atténuation robuste des biais dans les LLM

Simulation du monde réel : une étude unifiée des modèles génératifs multimodaux

RIZE : Apprentissage par imitation régularisé via l'apprentissage par renforcement distributionnel

Les vecteurs de direction optimisés en un coup influencent les comportements liés à la sécurité dans les LLM

EvoP : Inférence LLM robuste via l'élagage évolutif

Prédiction conforme de classificateurs à plusieurs classes basée sur des étiquettes bruyantes

Analyse comparative du raisonnement mathématique des LLM avec des questions à variables aléatoires invisibles

Confessions GenAI : Inférence d'appartenance en boîte noire pour les modèles d'images génératives

Au-delà de la mémorisation : évaluation de la généralisation sémantique dans les grands modèles linguistiques à l'aide de constructions phrastiques

ÉValuation des modèles bio-inspirés dans différents contextes d'apprentissage pour l'efficacité énergétique dans la prévision du trafic réseau

SLTNet : segmentation sémantique efficace basée sur les événements avec des réseaux légers basés sur des transformateurs pilotés par pics

Exploiter les modalités audio et textuelles en santé mentale : une étude des performances des LLM

Caractéristiques d'apprentissage du réseau neuronal quaternion inverse

Détection de points clés humains auto-supervisée guidée par la profondeur via une distillation intermodale

Transformateur de décision augmenté par récupération : mémoire externe pour l'apprentissage par renforcement contextuel

Réduction d'échelle des précipitations extrêmes avec la diffusion régularisée de Wasserstein

Verbalisation de la mémoire épisodique à l'aide de représentations hiérarchiques de l'expérience robotique tout au long de la vie

Prédiction du rendement pour la sélection de portefeuilles moyenne-variance : comment l'apprentissage axé sur la décision façonne les modèles de prévision

Classification des tumeurs cérébrales pédiatriques par histopathologie numérique et apprentissage profond : évaluation des méthodes SOTA sur une cohorte suédoise multicentrique

CTRQNets et LQNets : réseaux de neurones quantiques liquides et récurrents à temps continu

Explication des interactions légende-image dans les modèles CLIP avec attributions de second ordre

SpectralEarth : formation de modèles de fondation hyperspectraux à grande échelle

Vers une perception flexible avec la mémoire visuelle

Intégration de graphiques de connaissances cliniques et de systèmes neuronaux basés sur le gradient pour un diagnostic amélioré du mélanome via la liste de contrôle en 7 points

LUMA : un ensemble de données de référence pour l'apprentissage à partir de données incertaines et multimodales

Vers une attaque par inférence d'appartenance en boîte noire pour les modèles de diffusion

Robo-Instruct : alignement des instructions augmenté par simulateur pour affiner les LLM de code

De la performance du modèle à la revendication : comment un changement d'orientation dans la reproductibilité de l'apprentissage automatique peut contribuer à combler le fossé des responsabilités

Apprendre à différer dans les systèmes congestionnés : l'interaction IA-humain

LEAVES : Apprentissage des vues pour les données biocomportementales de séries chronologiques dans l'apprentissage contrastif

Apprentissage par renforcement multi-agents basé sur la théorie des jeux

SMA : Qui a dit ça ? Audit des fuites d'adhésions dans le contrôle RAG semi-noir

Aryabhata : un modèle de langage axé sur les examens pour JEE Math

Repenser la construction de référentiels LLM spécifiques à un domaine : une approche exhaustive et compacte

Les grands modèles linguistiques ne simulent pas la psychologie humaine

Tableau de classement de robustesse LLM v1 – Rapport technique

Un sous-objectif à la fois : généralisation à zéro coup aux exigences arbitraires de la logique temporelle linéaire dans l'apprentissage par renforcement multitâche

Le raisonnement par chaîne de pensée des masters de droit est-il un mirage ? Une approche de la distribution des données

Aperçu de StepFun-Prover : Réfléchissons et vérifions étape par étape

MoSE : Apprentissage par compétences d'experts pour machines autonomes intégrées

TurboBias : biais de contexte ASR universel optimisé par un arbre de renforcement de phrases accéléré par GPU

Created by

Haebom

Auteur

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg

Contour

Cet article aborde le problème de la reconnaissance de mots-clés spécifiques en reconnaissance automatique de la parole (RAP) contextuelle. Les techniques contextuelles existantes présentent des limites, telles que la nécessité d'un apprentissage supplémentaire du modèle, une vitesse de décodage lente et des types de systèmes RAP limités. Dans cet article, nous proposons un cadre RAP contextuel polyvalent prenant en charge tous les principaux types de modèles RAP, notamment les modèles CTC, Transducer et Attention Encoder-Decoder. Utilisant des arbres de mots boostés accélérés par GPU, le cadre fonctionne en mode de fusion superficielle sans ralentissement du décodage glouton et par recherche de faisceau, même avec jusqu'à 20 000 mots-clés. Les résultats expérimentaux démontrent que la méthode proposée surpasse les techniques contextuelles open source existantes en termes de précision et de vitesse de décodage. Le cadre RAP contextuel proposé est open source dans le cadre de la boîte à outils NeMo.

Takeaways, Limitations

•

Takeaways:

◦

Présentation d'un cadre général biaisé par le contexte applicable à divers types de modèles ASR.

◦

L'accélération GPU permet de traiter un grand nombre de mots-clés sans ralentissement

◦

Obtenir une précision et une vitesse de décodage supérieures par rapport aux méthodes existantes

◦

Version open source pour une meilleure accessibilité

•

Limitations:

◦

Les performances du cadre présenté dans cet article sont basées sur un ensemble de données et un ensemble de mots-clés spécifiques, et les performances peuvent varier dans d’autres conditions.

◦

Il peut être appliqué à divers modèles ASR, mais il peut y avoir une marge d'optimisation en fonction du type de modèle.

◦

L’utilisation d’informations contextuelles autres que les mots-clés n’est pas suffisamment prise en compte.

Made with Slashpage