Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AC-DiT : Transformateur de diffusion à coordination adaptative pour la manipulation mobile

Optimisation des récompenses de processus autoguidées avec un avantage étape par étape redéfini pour l'apprentissage par renforcement des processus

Créer des Hanzi comme passerelles narratives : un atelier de co-création d'IA pour les migrants âgés

Acteur-critique souple distributionnel avec politique de diffusion

Skywork-Reward-V2 : Adaptation de la conservation des données de préférences grâce à la synergie homme-IA

Division rapide des modèles d'IA sur les réseaux Edge

Des phrases aux séquences : repenser les langages dans les systèmes biologiques

MTCNet : Apprentissage guidé par la cohérence du mouvement et de la topologie pour la segmentation de la valve mitrale en échographie 4D

Horus : un protocole de délégation sans confiance en cas d'incertitude

Mélange de raisonnements : apprendre aux grands modèles linguistiques à raisonner avec des stratégies adaptatives

Analyse comparative de la manipulation bimanuelle généralisable : défi de collaboration à deux bras RoboTwin lors de l'atelier MEIS CVPR 2025

Red Teaming pour l'IA générative : rapport sur un exercice axé sur le droit d'auteur réalisé dans un centre médical universitaire

AirV2X : collaboration unifiée entre véhicules air-sol et tout

Attaques génératives tenant compte de la structure sémantique pour une transférabilité antagoniste améliorée

Alignement des LLM gelés par apprentissage par renforcement : une approche itérative de repondération puis d'optimisation

Distinguer l'IA prédictive et générative dans la réglementation

Un sondage, rien d'autre ? Utiliser de grands modèles linguistiques pour coder les réponses ouvertes en allemand sur la motivation.

Restauration d'images textuelles avec modèles de diffusion

Dans quelle mesure les politiques de mot de passe générées par LLM sont-elles efficaces ?

Vers une comparaison et un alignement explicables des intégrations de fonctionnalités

Empreinte digitale de modèle basée sur le gradient pour la détection de similarité LLM et la classification des familles

Renforcer l'économie intelligente à basse altitude grâce au déploiement de modèles d'IA à grande échelle

Intégration des LLM pour la simulation de mobilité urbaine complexe à grande échelle

Génération d'hypothèses de graphes causaux dynamiques en neurosciences : Exploitation des modèles factoriels génératifs de séries temporelles observées

Voyager à travers les langues : évaluation de la cohérence interlinguistique dans les LLM multimodaux

Modélisation des menaces pour l'IA : Plaidoyer pour une approche centrée sur les actifs

SoccerDiffusion : Vers un apprentissage complet du football robotisé humanoïde à partir d'enregistrements de gameplay

PAD : Fusion par découplage phase-amplitude pour la classification multimodale de la couverture terrestre

Indices de significativité pour les valeurs d'accord

Substituts transférables dans les espaces de recherche d'architecture neuronale expressive

Analyse du flux de travail du bloc opératoire préservant la confidentialité à l'aide de jumeaux numériques

Segmentation tumorale grossière à fine guidée par l'incertitude avec post-traitement tenant compte de l'anatomie

CMD-HAR : Démêlage intermodal pour la reconnaissance d'activité humaine par des dispositifs portables

Commander-GPT : exploiter pleinement la capacité de détection du sarcasme des grands modèles linguistiques multimodaux

Atténuation des biais basée sur la compréhension pour une segmentation CMR équitable

HAPI : un modèle pour l'apprentissage des expressions faciales des robots à partir des préférences humaines

MaizeField3D : un ensemble de données de nuage de points 3D et de modèles procéduraux de maïs cultivé en plein champ à partir d'un panel de diversité

Estimation de l'illuminant et de la direction de la lumière à l'aide de la méthode de distance de Wasserstein

Limites fondamentales de l'agrégation sécurisée hiérarchique avec association d'utilisateurs cyclique

LLM - Prédiction optimisée de l'hyperglycémie et découverte de voies de traitement comportementales à partir d'objets connectés et de l'alimentation

Diffusion de Gibbs entrelacée : génération de données discrètes continues avec contraintes implicites

EquiTabPFN : un réseau ajusté a priori équivariant à permutation cible

Réglage des circuits : une approche mécaniste pour identifier la redondance des paramètres et affiner les réseaux neuronaux

EigenLoRAx : Recyclage des adaptateurs pour trouver des sous-espaces principaux pour une adaptation et une inférence économes en ressources

Apprentissage des anomalies de trafic à partir de modèles génératifs sur des observations en temps réel

Activation du parallélisme au niveau de la population dans la programmation génétique arborescente pour une accélération GPU complète

Paramètres vs FLOP : lois d'échelle pour une parcimonie optimale pour les modèles de langage à mélange d'experts

Quantification de l'importance de l'alignement des données dans les performances du modèle en aval

Découverte causale améliorée par technologie quantique pour un petit nombre d'échantillons

Sur les caractérisations pour la génération du langage : interaction entre hallucinations, ampleur et stabilité

Préfixe de jeton : une approche sans formation pour obtenir de meilleures incorporations de phrases à partir des LLM

COEF-VQ : Compréhension de la qualité vidéo rentable grâce à un cadre LLM multimodal en cascade

GeMID : modèles généralisables pour l'identification des appareils IoT

La tâche de prédiction du prochain jeton suppose un ordre optimal des données pour la formation LLM dans la génération de preuves

Répondre à des requêtes complexes est-il vraiment complexe ?

Navigation aérienne par vision et langage via une représentation sémantique-topo-métrique Raisonnement LLM guidé

Apprentissage par renforcement hors ligne pour l'apprentissage de la répartition pour la planification des ateliers

Reconsidérer l'efficacité énergétique des réseaux neuronaux à pointes

Exploration de l'intégration de grands modèles linguistiques dans les processus de maintenance des tests industriels

Formation préalable au guidage des mouvements de la sonde d'échocardiographie en fonction des séquences

Modèles anatomiques fondamentaux pour les IRM cérébrales

Apprendre des étiquettes bruyantes issues du crowdsourcing : une perspective de traitement du signal

Quantification des écarts intersectoriels entre groupes multiples à l'aide d'une analyse de classe latente en vue d'une plus grande équité

Se plonger dans l'écriture assistée par LLM dans les publications biomédicales grâce à un vocabulaire excédentaire

Vers une nouvelle mesure de la confiance des utilisateurs dans les systèmes XAI

ÉViter les catastrophes dans l'apprentissage en ligne en demandant de l'aide

Améliorer la robustesse de la reconnaissance d'entités nommées supervisées à distance grâce à l'apprentissage par l'enseignant conscient de l'incertitude et à l'apprentissage collaboratif entre élèves

Au-delà de l'échelle : le coefficient de diversité comme mesure de la qualité des données pour la variabilité des données en langage naturel

Apprentissage par renforcement inverse bayésien à densité de noyau

Agents d'IA incarnés : Modéliser le monde

Mind2Web 2 : Évaluation de la recherche agentique avec l'agent-juge

AI Flow : perspectives, scénarios et approches

Un cadre pour le raisonnement conditionnel dans la programmation par ensemble de réponses

L'autoformalisation à l'ère des grands modèles linguistiques : une enquête

Observabilité des processus d'IA agentique : découverte de la variabilité comportementale

Rapport sur l'indice d'intelligence artificielle 2025

MAPS : Faire progresser le raisonnement multimodal dans les sciences physiques de niveau expert

XGeM : un modèle de fondation multi-invite pour la génération de données médicales multimodales

Optimisation des préférences directes à l'aide de contraintes au niveau des fonctionnalités clairsemées

Cognition non supervisée

Pré-formation et incitation en région urbaine : une approche basée sur des graphiques

Générateur de graphiques routiers : cartographie des routes sur les chantiers de construction à partir de données GPS

Point3R : Reconstruction 3D en continu avec mémoire de pointeur spatial explicite

LiteReality : Reconstruction de scènes 3D prêtes pour les graphiques à partir de numérisations RVB-D

La correspondance des réponses surpasse le choix multiple pour l'évaluation des modèles de langage

Sous-typage dans DHOL – Préimpression étendue

MOTIF : Pensée modulaire via le renforcement et le perfectionnement dans les LLM

USAD : un réseau de diffusion d'attention spatio-temporelle à augmentation de données non supervisée

Précodage basé sur DNN dans les systèmes MIMO à ondes millimétriques assistés par RIS avec déphasage pratique

SynapseRoute : un framework de commutation automatique d'itinéraires sur un modèle de langage à double état

Banc d'autocorrection : révéler et traiter l'angle mort de l'autocorrection dans les LLM

Analyse de scènes auditives multi-agents

Rapide et simplexe : attention 2-simpliciale dans Triton

Synthétisable par conception : un cadre guidé par rétrosynthèse pour la génération d'analogues moléculaires

Attention linéaire avec contexte global : un mécanisme d'attention multipolaire pour la vision et la physique

Premiers signes de capacités stéganographiques dans les LLM de Frontier

Meta SecAlign : un LLM de base sécurisé contre les attaques par injection rapide

FairHuman : Améliorer la qualité des mains et des visages dans la génération d'images humaines avec un délai potentiel minimal Équité dans les modèles de diffusion

APT : Formation personnalisée adaptative pour les modèles de diffusion avec données limitées

ASDA : Mécanisme d'attention différentielle par spectrogramme audio pour l'apprentissage auto-supervisé des représentations

CoCMT : Transformateur intermodal efficace en communication pour une perception collaborative

Created by

Haebom

Auteur

Rujia Wang, Xiangbo Gao, Hao Xiang, Runsheng Xu, Zhengzhong Tu

Contour

Dans cet article, nous proposons CoCMT, un nouveau cadre pour améliorer l'efficacité de la communication dans les systèmes de perception coopérative multi-agents. Alors que les systèmes existants souffrent d'un surcoût de communication élevé en transmettant l'intégralité de la carte des caractéristiques intermédiaires, CoCMT transmet sélectivement uniquement les informations essentielles grâce à une approche basée sur les requêtes d'objets. Cela comprend la fusion efficace des requêtes d'objets provenant de plusieurs agents à l'aide d'un transformateur de requêtes efficace (EQFormer) et l'application d'une technique de supervision approfondie qui améliore la synergie entre les étapes pour améliorer les performances. Les résultats expérimentaux sur les jeux de données OPV2V et V2V4Real montrent que CoCMT surpasse les méthodes de pointe existantes tout en réduisant considérablement le volume de communication. En particulier, le modèle utilisant les 50 requêtes d'objets les plus performantes sur le jeu de données V2V4Real ne nécessite que 0,416 Mo de bande passante, soit 83 fois moins que la méthode la plus performante existante, tout en améliorant l'indice AP70 de 1,1 %. Cette amélioration de l'efficacité permet la construction de systèmes de perception coopérative pratiques sans compromettre la précision, même dans des environnements à bande passante limitée.

Takeaways, Limitations

•

Takeaways:

◦

Nous démontrons que l’efficacité de la communication peut être considérablement améliorée grâce à un cadre de perception collaborative basé sur des requêtes d’objets.

◦

Il permet la construction de systèmes de perception collaborative multi-agents de haute précision, même dans des environnements à bande passante limitée.

◦

Nous présentons une nouvelle méthode pour améliorer les performances de perception collaborative multi-agents en utilisant EQFormer et des techniques de supervision approfondie.

◦

Augmente l’applicabilité des systèmes de perception collaborative dans des environnements réels.

•

Limitations:

◦

Les performances de la méthode proposée peuvent dépendre du jeu de données. Des expériences complémentaires sur différents jeux de données et environnements sont nécessaires.

◦

Des recherches supplémentaires peuvent être nécessaires pour optimiser les stratégies de sélection des requêtes d’objets.

◦

L'analyse de la dégradation potentielle des performances dans des environnements complexes ou lorsqu'un grand nombre d'agents sont présents est nécessaire.

Voir le PDF

Made with Slashpage