Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RotBench : Évaluation de modèles linguistiques multimodaux de grande taille pour l'identification de la rotation d'images

Mise à l'échelle du temps d'entrée

CRED-SQL : Amélioration de l'analyse texte-SQL des bases de données à grande échelle dans le monde réel grâce à la récupération et à l'exécution de clusters Description

STEM : Évaluation efficace des capacités relatives des LLM grâce à des échantillons de transition structurés

AdaRing : Vers une adaptation vision-langage ultra-légère via la décomposition en anneaux tensoriels inter-couches

L'IA biaisée améliore la prise de décision humaine mais réduit la confiance

MAViS : un framework multi-agents pour la narration vidéo en longues séquences

ExpVG : Étude de l'espace de conception de l'ancrage visuel dans un modèle de langage multimodal à grande échelle

MetAdv : une plateforme de tests contradictoires unifiée et interactive pour la conduite autonome

ETA : Adaptation du temps de test basée sur l'énergie pour l'achèvement en profondeur

Extension des estimateurs de profondeur monoculaires fondamentaux aux caméras fisheye avec des jetons d'étalonnage

Quand les bons sons deviennent conflictuels : jailbreaker les modèles de langage audio avec des entrées bénignes

CRINN : Apprentissage par renforcement contrastif pour la recherche approximative du plus proche voisin

Réinitialisation des poids par rapport aux unités pour maintenir la plasticité dans les réseaux neuronaux

À Chacun son truc : explorer l'intégration optimale dans RAG

La distillation des caractéristiques est le meilleur choix pour l'apprentissage fédéré à modèle hétérogène

TolerantECG : un modèle fondamental pour l'électrocardiogramme imparfait

DeepRetro : Découverte de voies rétrosynthétiques à l'aide du raisonnement LLM itératif

LoSiA : réglage fin efficace de haut niveau via la localisation et l'optimisation des sous-réseaux

Structure comme recherche : apprentissage par permutation non supervisé pour l'optimisation combinatoire

Amélioration de la sensibilité temporelle d'un grand modèle linguistique pour la recommandation avec un réglage contrefactuel

Analyse de scènes auditives multi-agents

MinD : Apprentissage d'un modèle mondial à double système pour la planification en temps réel et l'analyse des risques implicites

AtmosMJ : Réexamen du mécanisme de blocage pour les prévisions météorologiques par IA au-delà de l'échelle annuelle

Analyse comparative des modèles de séries chronologiques pré-entraînés pour la prévision des prix de l'électricité

Spore dans la nature : étude de cas de Spore.fun, une expérience d'évolution en environnement ouvert avec des agents d'IA souverains sur des blockchains sécurisées par TEE

Critique-GRPO : Faire progresser le raisonnement LLM grâce au langage naturel et au retour numérique

Restauration neuronale des défauts de verdissement dans les photographies autochromes historiques à partir de données purement synthétiques

Préoccupations en matière de sécurité pour les grands modèles linguistiques : une enquête

Format de données commun (CDF) : un format standardisé pour les données de match de football

Les transformateurs à une couche sont prouvés comme optimaux pour le raisonnement en contexte et l'apprentissage par association distributionnelle dans les tâches de prédiction du prochain jeton

FMSD-TTS : Synthèse vocale multi-dialectes multi-locuteurs à quelques clichés pour la génération de jeux de données vocales en U-Tsang, Amdo et Kham

Quantification de l'incertitude pour les modèles linguistiques : une suite d'outils de notation de type boîte noire, boîte blanche, juge LLM et ensemble

Hallucinations et extraction d'informations clés dans les textes médicaux : une évaluation complète des grands modèles linguistiques open source

Un cadre conceptuel pour les systèmes de décision basés sur l'IA dans les infrastructures critiques

Actions dominées dans les jeux d'information imparfaite

Exercices pratiques : segmentation de signes individuels à partir de séquences continues

PathGPT : Recadrer la recommandation de chemin comme tâche de génération de langage naturel avec des modèles de langage augmentés par récupération

Amélioration de la génération de graphiques en code dans MLLM via un raffinement guidé par double préférence

JudgeLRM : Grands modèles de raisonnement en tant que juge

L'IA générative dans l'éducation primaire et secondaire : l'initiative CyberScholar

Génération de langage naturel à partir d'événements visuels : état de l'art et questions clés ouvertes

Apprentissage par renforcement hybride basé sur l'action pour une conduite autonome multi-objectifs compatible

La distillation contrastive est-elle suffisante pour apprendre des représentations 3D complètes ?

Moteur d'action : génération automatique de flux de travail dans FaaS

L'importance des langages de modélisation visuelle dans l'ingénierie logicielle générative

Stylisation de tête 3D préservant l'identité avec distillation de partition multivue

SLED : Décodage de l'évolution des logits pour améliorer la facticité dans les grands modèles linguistiques

Test des composants de la théorie des schémas d'attention dans les réseaux de neurones artificiels

Un peu de données humaines peut faire beaucoup de chemin

Source2Synth : génération et conservation de données synthétiques basées sur des sources de données réelles

Débiaising social pour des LLM multimodaux équitables

Une analyse comparative complète des réseaux de neurones spectraux (GNN) : leur impact sur l'efficacité, la mémoire et l'efficience

LoRA-XS : adaptation de bas rang avec un nombre extrêmement réduit de paramètres

Améliorer le diagnostic de dépression grâce au suivi de l'état psychologique

Estimation des limites inférieures de dissipation d'énergie pour l'apprentissage neuromorphique en mémoire

N'appuyez pas sur le bouton ! Exploration des risques de fuite de données dans l'apprentissage automatique et le transfert d'apprentissage.

Vers l'utilisation de cartes de saillance pour expliquer les électrocardiogrammes de faible qualité aux utilisateurs finaux

Convergence de Nash des algorithmes d'apprentissage basés sur la moyenne dans les enchères au premier prix

TASER : Agents de table pour l'extraction et la recommandation guidées par schéma

Modélisation de circuits logiques relationnels pour réseaux convolutifs à graphes inverseurs

EvoCurr : programme d'études auto-évolutif avec génération de codes comportementaux pour la prise de décision complexe

KIRETT : Assistant de traitement intelligent basé sur un graphique de connaissances pour les opérations de sauvetage intelligentes

EoH-S : Évolution des ensembles heuristiques utilisant des LLM pour la conception heuristique automatisée

Agent SE : Optimisation de trajectoire d'auto-évolution dans le raisonnement multi-étapes avec des agents basés sur LLM

Analyse comparative des pipelines de génération augmentée (RAG) de récupération vectorielle, graphique et hybride pour les réseaux d'accès radio ouverts (ORAN)

Le benchmark NordDRG AI pour les grands modèles linguistiques

Gradients de politique de mémoire finie robustes pour les POMDP à modèle caché

Loi d'échelle de l'agent RL : Agent RL avec exécution de code spontanée pour la résolution de problèmes mathématiques

Apprentissage non supervisé pour l'affectation quadratique

Récupération alignée sur les références - Réponse aux questions augmentée sur des documents propriétaires hétérogènes

Analyse comparative de la construction de graphes par de grands modèles de langage pour l'inférence pilotée par la cohérence

La quantification rencontre les dLLM : une étude systématique de la quantification post-formation pour les LLM en diffusion

Apprentissage de la structure des graphes avec goulot d'étranglement des informations temporelles des graphes pour l'apprentissage par représentation inductive

$TIME[t] \subseteq SPACE[O(\sqrt{t})]$ via la compression de la hauteur de l'arbre

Raisonnement à longue chaîne de pensée à travers les langues

D'un outil passif à un coéquipier sociocognitif : un cadre conceptuel pour l'IA agentique dans l'apprentissage collaboratif humain-IA

ÉValuation de la génération augmentée par récupération par rapport à la saisie de contexte long pour le raisonnement clinique sur les DSE

TransLight : Contrôle d'éclairage personnalisé guidé par l'image avec découplage génératif

DINov3 avec formation en temps de test pour l'enregistrement d'images médicales

MF-LPR$^2$ : Restauration et reconnaissance d'images de plaques d'immatriculation multi-images à l'aide du flux optique

TransLLM : un cadre de base multitâche unifié pour le transport urbain via des invites d'apprentissage

PepThink-R1 : Master en optimisation des peptides cycliques interprétables avec CoT SFT et apprentissage par renforcement

Génération fiable de problèmes de physique isomorphes à l'aide de ChatGPT avec chaînage d'invites et utilisation d'outils

Génération de molécules contrôlées par modalités croisées avec modèle de langage de diffusion

ÉValuation de l'alignement multilingue et à code commuté dans les LLM via l'inférence synthétique en langage naturel

AFABench : un cadre générique pour l'évaluation comparative de l'acquisition active de fonctionnalités

Jeux Emerson-Lei et Manna-Pnueli pour la synthèse LTLf+ et PPLTL+

Transplanter puis régénérer : un nouveau paradigme pour l'augmentation des données textuelles

ShizhenGPT : Vers des masters multimodaux en médecine traditionnelle chinoise

Apprentissage dans les jeux de Stackelberg multi-objectifs répétés avec manipulation des gains

Ennemi de la fraude : attaques adverses transférables dans la détection de la fraude par carte de crédit

ECHO : codage hiérarchique sensible à la fréquence pour signal de longueur variable

ELATE : Modèle de langage évolutif pour l'ingénierie automatisée des séries chronologiques

OneLoc : Systèmes de recommandation générative géo-sensibles pour les services de la vie locale

Les agents LLM peuvent-ils résoudre des tâches collaboratives ? Étude sur la planification et la coordination en fonction de l'urgence.

ÉTude du rapport signal/distorsion invariant d'échelle dans la séparation de la parole avec des références bruyantes

UST-SSM : Modèles d'espace d'état spatio-temporel unifiés pour la modélisation vidéo de nuages de points

Un cadre de co-développement HW-SW open source permettant des systèmes multi-accélérateurs efficaces

Mamba2 rencontre le silence : séparation robuste des sources vocales pour les régions clairsemées

Analyse de scènes auditives multi-agents

Created by

Haebom

Auteur

Caleb Rascon, Luis Gato-Diaz, Eduardo García -Alarc sur

Contour

Cet article propose une approche multi-agents pour surmonter les limites des systèmes d'analyse de scène auditive linéaire (ASA) conventionnels. Les systèmes ASA conventionnels traitent séquentiellement la localisation, la segmentation et la classification des sources sonores, ce qui entraîne des temps de réponse longs et un impact significatif sur les étapes suivantes en raison d'erreurs précoces. Le système d'analyse de scène auditive multi-agents (MASA) proposé effectue les tâches de localisation, de segmentation et de classification en parallèle et compense les erreurs grâce à une boucle de rétroaction réciproque. Par exemple, la qualité des résultats de séparation est utilisée pour corriger les erreurs de localisation, et les résultats de classification pour réduire la sensibilité de la localisation aux interférences. Cela rend MASA robuste aux erreurs locales et offre des temps de réponse rapides sans augmenter la complexité. Le système MASA proposé est fourni sous forme de framework ouvert utilisant JACK (Acoustic Acquisition and Reproduction) et ROS2 (Inter-Agent Communication), permettant une intégration aisée des agents utilisateurs.

Takeaways, Limitations

•

Takeaways:

◦

Temps de réponse raccourci et erreurs réduites grâce au traitement parallèle des systèmes ASA existants.

◦

Correction des erreurs de chaque tâche et amélioration de la robustesse à l'échelle du système grâce à des boucles de rétroaction réciproques.

◦

Fournir un cadre ouvert facilite la création de systèmes personnalisés.

◦

Il présente des applications potentielles dans divers domaines tels que la bioacoustique, la conception d'aides auditives, la recherche et le sauvetage et l'interaction homme-robot, où une réponse à faible puissance et à faible latence est requise.

•

Limitations:

◦

Absence de résultats expérimentaux spécifiques pour évaluer les performances du système MASA proposé.

◦

Des recherches supplémentaires sont nécessaires sur les performances de généralisation du système à des environnements divers et à des scènes auditives complexes.

◦

Une optimisation supplémentaire est nécessaire pour des mécanismes de communication et d’échange d’informations efficaces entre les agents.

Voir le PDF

Made with Slashpage