Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VeOmni : Adaptation de la formation à n'importe quel modèle de modalité avec un zoo de recettes distribué centré sur le modèle

Dynaword : du one-shot aux jeux de données développés en continu

Prévision : Quand prévoir ? Accélération des modèles de diffusion avec la méthode de Taylor basée sur la confiance

Proof2Hybrid : synthèse automatique de référence mathématique pour les problèmes centrés sur la preuve

Chaîne d'agents collaborative pour la synergie des connaissances récupérées par paramètres

BlockA2A : Vers une interopérabilité agent-agent sécurisée et vérifiable

SpectrumWorld : Fondation d'intelligence artificielle pour la spectroscopie

Gestion de l'escalade dans les modèles de langage volumineux prêts à l'emploi

FGBench : un ensemble de données et une référence pour le raisonnement sur les propriétés moléculaires au niveau des groupes fonctionnels dans les grands modèles de langage

Cartographie Schema.org fondamentale pour un graphe de connaissances juridiques : représentation des normes juridiques brésiliennes sous forme d'œuvres FRBR

D3 : Détection vidéo générée par l'IA sans formation à l'aide de caractéristiques de second ordre

SMART-Editor : un framework multi-agents pour une édition de conception de type humain avec intégrité structurelle

Fusion vision-langage pour la conduite autonome en temps réel : attention croisée centrée sur l'objectif de la caméra, de la carte HD et des points de cheminement

MoCHA : Raisonnement vision-langage avancé avec connecteur MoE et attention de groupe hiérarchique

Améliorez la distillation auto-supervisée des ensembles de données via la paramétrisation, l'augmentation prédéfinie et l'approximation

Mémorisation dans les grands modèles linguistiques affinés

De l'intrication à l'alignement : décomposition de l'espace de représentation pour l'adaptation de domaine de séries temporelles non supervisées

Le Xeno Sutra : peut-on attribuer un sens et une valeur à un texte « sacré » généré par l’IA ?

Apprentissage post-achèvement pour les modèles linguistiques

Rainbow Noise : Test de résistance des détecteurs multimodaux de mèmes nocifs sur les contenus LGBTQ

Préhension volumétrique équivariante

SemiSegECG : une référence multi-ensembles de données pour la segmentation sémantique semi-supervisée dans la délimitation d'ECG

FedSA-GCL : un framework d'apprentissage de graphes fédérés semi-asynchrone avec agrégation personnalisée et diffusion sensible aux clusters

Des taux d'apprentissage élevés permettent simultanément d'obtenir une robustesse aux corrélations parasites et une compressibilité

R-Stitch : assemblage dynamique de trajectoires pour un raisonnement efficace

P3SL : Apprentissage fractionné personnalisé préservant la confidentialité sur des appareils périphériques hétérogènes

Document Haystack : une vision multimodale de compréhension d'images/documents à long contexte, référence LLM

Regroupement de graphes évolutifs à attributs manquants via la différenciation de voisinage

TaylorPODA : une méthode basée sur l'expansion de Taylor pour améliorer les attributions post-hoc pour les modèles opaques

Diviser puis régner : un interpolateur hiérarchique piloté par cluster pour les graphes à attributs manquants

$\Texttt{Droid}$ : une suite de ressources pour la détection de code généré par l'IA

Raisonnement ou mémorisation ? Résultats peu fiables de l'apprentissage par renforcement en raison de la contamination des données.

Fondements de principe pour l'optimisation des préférences

ÉValuation des LLM sur les prévisions du monde réel par rapport aux prévisionnistes experts

STRUCTSENSE : un cadre agentique indépendant des tâches pour l'extraction d'informations structurées avec évaluation et analyse comparative en temps réel

S2FGL : Apprentissage spatial et spectral de graphes fédérés

AI4Research : une étude sur l'intelligence artificielle pour la recherche scientifique

Pourquoi les LLM open source peinent-ils à analyser les données ? Une étude empirique systématique

Simulation de trafic à long terme avec mouvement autorégressif entrelacé et génération de scénarios

Renforcer les VLM pour utiliser des outils de raisonnement visuel détaillé sous contraintes de ressources

Diffusion causalement dirigée pour la génération automatisée de contrefactuels vidéo

Qu'est-ce qui fait un bon générateur de mots pour la génération de discours centrée sur le LLM ? Une étude systématique

ChineseHarm-Bench : un outil de référence pour la détection des contenus nuisibles en Chine

ProRefine : Affinement des invites d'inférence avec retour textuel

SALAD : Évaluation systématique du désapprentissage automatique dans la conception matérielle assistée par LLM

MetaGen Blended RAG : Débloquer la précision zéro coup pour les questions-réponses dans des domaines spécialisés

Vers la révélation de l'efficacité du réglage fin à petite échelle dans l'apprentissage par renforcement de type R1

LightRetriever : une architecture de récupération hybride basée sur LLM avec une inférence de requête 1 000 fois plus rapide

Les grands modèles multimodaux peuvent-ils comprendre les scènes agricoles ? Analyse comparative avec AgroMind

Exploiter les modèles vision-langage pour l'ancrage visuel et l'analyse de l'interface utilisateur automobile

Intégration temporelle entièrement optique médiée par des antennes thermiques sub-longueur d'onde

GRILL : Restauration du signal de gradient dans les couches mal conditionnées pour améliorer les attaques adverses sur les auto-encodeurs

JointDiT : Amélioration de la modélisation des joints en profondeur RVB avec des transformateurs de diffusion

FFCBA : attaques de porte dérobée à étiquette propre et à cible complète basées sur les fonctionnalités

Biais de performance multilingue des grands modèles linguistiques en éducation

NoWag : un cadre unifié pour la compression préservant la forme des grands modèles linguistiques

Reconstruire les trajectoires du sepsis à partir de rapports de cas cliniques à l'aide de LLM : le corpus de séries chronologiques textuelles sur le sepsis

Formation efficace de modèles génératifs via l'échauffement de représentations intégrées

Déroulement profond bayésien piloté par l'attention graphique pour l'imagerie lidar monophotonique à double pic

Recherche d'architecture spectrale pour les modèles de réseaux neuronaux

Améliorer la correspondance stéréo omnidirectionnelle avec un modèle de base de profondeur pré-entraîné

ADS-Edit : un ensemble de données d'édition de connaissances multimodales pour les systèmes de conduite autonome

Correspondance des scores potentiels : élimination des biais lors de l'échantillonnage de structures moléculaires avec guidage par énergie potentielle

Apprentissage d'ensemble pour les grands modèles de langage dans la génération de texte et de code : une enquête

Apprentissage augmenté des déclencheurs adverses

ETCH : Généralisation de l'ajustement corporel aux humains vêtus via l'étanchéité équivariante

M2S : jailbreak multi-tours vers un seul tour en Red Teaming pour les LLM

Un cadre causal pour aligner les mesures de qualité d'image et la robustesse des réseaux neuronaux profonds

PennyLang : génération de code quantique basée sur LLM avec un nouvel ensemble de données centré sur PennyLang

DexGraspVLA : un cadre vision-langage-action pour une compréhension adroite générale

Entropy-Lens : la signature informationnelle des calculs de transformateurs

CAMEF : Prévisions financières multimodales causales augmentées et pilotées par événements, intégrant des modèles de séries chronologiques et des annonces macroéconomiques importantes

Façonner des récompenses éparses dans l'apprentissage par renforcement : une approche semi-supervisée

AdaMCoT : Repenser le raisonnement factuel interlinguistique grâce à une chaîne de pensée multilingue adaptative

Positionnement sans fil piloté par l'IA : principes fondamentaux, normes, état de l'art et défis

CHIRP : une référence précise pour l'évaluation des réponses ouvertes dans les modèles vision-langage

Acteur-critique doux à récompense moyenne

Une vidéo vaut mille images : exploration des dernières tendances en matière de création de vidéos longues

Du texte à la trajectoire : exploration de la représentation et de la décomposition de contraintes complexes dans l'apprentissage par renforcement sûr

Parler à DINO : relier les piliers de la vision auto-supervisée au langage pour une segmentation du vocabulaire ouvert

SANDWICH : Vers un substitut de traçage de rayons neuronaux sans fil, hors ligne, différentiable et entièrement entraînable

IDÉATEUR : Jailbreaking et benchmarking de grands modèles vision-langage en les utilisant eux-mêmes

Cobblestone : une approche « diviser pour mieux régner » pour automatiser la vérification formelle

Contraction efficace des croyances lors de l'assemblée générale annuelle : un voyage au-delà du royaume finitaire (rapport technique)

Au-delà des images : fusion adaptative de données visuelles et textuelles pour la classification des aliments

TAPAS : Dérivation rapide et automatique de stratégies parallèles de tenseurs pour les grands réseaux neuronaux

KCR : Résoudre les conflits de connaissances à long contexte grâce au raisonnement dans les LLM

Le raisonnement par chaîne de pensée des masters de droit est-il un mirage ? Une approche de la distribution des données

CADDesigner : conception de modèles CAO basés sur un agent polyvalent

Attention à l'écart : la divergence entre les tâches humaines et celles générées par le LLM

RL-PLUS : Contrer l'effondrement des limites de capacité des LLM en apprentissage par renforcement grâce à l'optimisation des politiques hybrides

Maximisation douce basée sur un modèle de mesures appropriées de la puissance humaine à long terme

Tiny-BioMoE : un modèle d'intégration léger pour l'analyse des biosignaux

Système de réécriture des termes AlphaPhysics pour la notation des expressions algébriques aux examens de physique

Modélisation de la logique modale déontique dans le système de programmation par ensemble de prédicats et de réponses orienté vers les objectifs s(CASP)

Optimisation automatique des invites pour la construction de graphes de connaissances : enseignements tirés d'une étude empirique

La théorie de la conscience cognitive unifiée pour les modèles de langage : sémantique d'ancrage, seuils d'activation et raisonnement émergent

Raisonnement abductif basé sur la cohérence sur les erreurs de perception de plusieurs modèles pré-entraînés dans de nouveaux environnements

Améliorer la résilience des systèmes d'IA : formulation et garantie de la résilience LSTM basée sur la théorie du contrôle

UFEval : évaluation unifiée à granularité fine avec généralisation des tâches et des aspects

OmniUnet : un réseau multimodal pour la segmentation de terrain non structurée sur les rovers planétaires utilisant l'imagerie RVB, de profondeur et thermique

Created by

Haebom

Auteur

Raul Castilla-Arquillo, Carlos Pérez-del-Pulgar, Levin Gerdes, Alfonso Garcia-Cerezo, Miguel A. Olivares-Mendez

Contour

Cet article propose OmniUnet, un modèle de segmentation sémantique basé sur des images multimodales (RVB, profondeur, thermique) pour la navigation autonome et sécurisée des rovers martiens. Entraîné à partir d'un jeu de données multimodales collectées dans le désert des Bardenas en Espagne, OmniUnet utilise une architecture réseau basée sur Transformer et est conçu pour permettre l'inférence en temps réel, même sur des Jetson Orin Nano aux ressources limitées. Les résultats expérimentaux démontrent d'excellentes performances dans la segmentation de terrains complexes et non structurés, avec une précision de 80,37 % au pixel près. Le jeu de données et le code source collectés sont ouverts et disponibles pour de futures recherches.

Takeaways, Limitations_

•

Takeaways:

◦

Un modèle efficace de segmentation du terrain martien utilisant des images multimodales (RGB-DT) est présenté.

◦

Mise en œuvre d'un modèle léger capable de traitement en temps réel même dans des environnements à ressources limitées.

◦

Contribuer au développement futur de la recherche grâce à des ensembles de données ouverts et du code source.

◦

Contribuer à améliorer la sécurité de la conduite autonome des robots d'exploration de Mars.

•

Limitations:

◦

Taille et diversité limitées des ensembles de données (désert des Bardenas uniquement).

◦

Différences par rapport à l’environnement martien réel (en utilisant un environnement simulé).

◦

Une vérification des performances de généralisation pour d’autres types de terrains et d’obstacles est nécessaire.

◦

Une évaluation supplémentaire de la durabilité et de la stabilité pour un fonctionnement à long terme est nécessaire.

Made with Slashpage