Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Modèles de langage auto-questionnés

Au-delà du risque : un prototype de cadre pour évaluer l'impact sociétal des systèmes d'IA

Réduction dimensionnelle dynamique supervisée avec réseau neuronal profond

EmoSteer-TTS : synthèse vocale fine et sans formation, contrôlable par les émotions via le pilotage par activation

Les LLM ont un cœur de pierre : démystifier la capacité de réflexion douce des grands modèles de raisonnement

Optimisation de code industrielle basée sur LLM sous réglementation : une approche par mélange d'agents

Protocole d'évaluation fiable pour la récupération de faible précision

Landsat30-AU : un ensemble de données vision-langage pour l'imagerie Landsat australienne

Apprentissage par renforcement intégré aux outils pour la recherche approfondie dans les référentiels

CauKer : les modèles de base de séries chronologiques de classification peuvent être pré-entraînés uniquement sur des données synthétiques

Intégration multi-invites adaptative au contexte avec de grands modèles de langage pour l'alignement vision-langage

DMSC : Cadre de coordination multi-échelle dynamique pour la prévision des séries chronologiques

HyCodePolicy : Contrôleurs de langage hybrides pour la surveillance et la décision multimodales chez les agents intégrés

Apprentissage de la représentation des entités via un graphique sur site/hors site pour les publicités Pinterest

ÉValuation de l'expérience utilisateur dans les systèmes de recommandation conversationnelle : une revue systématique des approches classiques et basées sur le LLM

Connaissance des fréquences spatiales pour la détection d'objets dans les images RAW

Apprentissage de la manipulation pivotante avec retour de force et de vision à l'aide de démonstrations basées sur l'optimisation

NCCR : évaluer la robustesse des réseaux neuronaux et des exemples contradictoires

ChartM$^3$ : Analyse comparative de l'édition de graphiques avec des instructions multimodales

De l'intrication à l'alignement : décomposition de l'espace de représentation pour l'adaptation de domaine de séries temporelles non supervisées

EcoTransformer : Attention sans multiplication

Les confettis de Bob : attaques de mémorisation phonétique dans la création musicale et vidéo

SDBench : une suite complète de benchmarks pour la diarisation des locuteurs

Un véritable apprentissage multimodal en contexte nécessite une attention au contexte visuel

Modèles de débit de jauge

Recherche d'architecture neuronale à zéro coup avec corrélation de réponse pondérée

Le côté obscur des LLM : attaques basées sur des agents pour une prise de contrôle complète des ordinateurs

CAVGAN : Unifier le jailbreak et la défense des LLM via des attaques antagonistes génératives sur leurs représentations internes

VOTE : Optimisation vision-langage-action avec le vote d'ensemble de trajectoires

ÉTude comparative des LLM spécialisés en tant que récupérateurs denses

Désambiguïsation de la détection des signes à l'aide de grands modèles linguistiques

UnMix-NeRF : le démixage spectral rencontre les champs de rayonnement neuronal

Ancrages de pensée : quelles étapes du raisonnement LLM sont importantes ?

UITron-Speech : vers des agents d'interface utilisateur automatisés basés sur des instructions vocales

15 500 secondes : Classification allégée des drones grâce à EfficientNet et à un réglage fin léger

AtmosMJ : Réexamen du mécanisme de blocage pour les prévisions météorologiques par IA au-delà de l'échelle annuelle

Sur l'impossibilité fondamentale du contrôle des hallucinations dans les grands modèles de langage

Modèles de fondation fédérés multimodaux et multitâches pour les systèmes de réalité étendue de nouvelle génération : vers une intelligence distribuée préservant la confidentialité en RA/RV/RM

Le raisonnement textuel libère les évaluateurs multimodaux à zéro coup

CAIN : Détournement de LLM – Conversations humaines via des invites système malveillantes

Expliquez moins, comprenez plus : détection du jargon grâce à un réglage fin personnalisé et efficace des paramètres

Qu'est-ce qui vit ? Une méta-analyse de diverses opinions sur la définition de la vie.

Un recuit neuronal génératif pour l'optimisation combinatoire en boîte noire

GRILL : Restauration du signal de gradient dans les couches mal conditionnées pour améliorer les attaques adverses sur les auto-encodeurs

CostFilter-AD : Amélioration de la détection des anomalies grâce au filtrage des coûts correspondants

Mj\"olnir : un cadre de paramétrisation d'apprentissage profond pour la densité globale des éclairs

Reconnaissance des attributs piétons basée sur les événements RVB : un ensemble de données de référence et un cadre de fusion RWKV asymétrique

ProtoECGNet : Apprentissage profond interprétable basé sur des cas pour la classification d'ECG multi-étiquettes avec apprentissage contrastif

Au-delà des images grand angle : correction de la structure des portraits vidéo en détail via une adaptation spatio-temporelle non supervisée

CITRAS : Transformateur informé par covariable pour la prévision des séries chronologiques

Une rubrique suffit : Améliorer l'évaluation du code basée sur la LLM grâce à des rubriques spécifiques aux questions

Analyse empirique de la co-formation en simulation et en réel des politiques de diffusion pour la poussée planaire à partir de pixels

SimpleRL-Zoo : Enquête et maîtrise de l'apprentissage par renforcement zéro pour les modèles à base ouverte dans la nature

NuPlanQA : un ensemble de données à grande échelle et une référence pour la compréhension de scènes de conduite multi-vues dans des modèles multimodaux à grand langage

L'impact des défauts d'écriture des items sur la difficulté et la discrimination dans la théorie de la réponse aux items

À Travers la loupe : grossissement adaptatif de la perception pour un décodage VLM sans hallucinations

Recherche-R1 : Former les LLM à raisonner et à exploiter les moteurs de recherche grâce à l'apprentissage par renforcement

Planification des requêtes par extraction pour une communication sémantique orientée vers les objectifs

Accélération de la recherche focale dans la recherche de chemin multi-agent avec des limites inférieures plus strictes

RAILGUN : une politique convolutionnelle unifiée pour la recherche de chemin multi-agents dans différents environnements et tâches

UltraSTF : modèle ultra-compact pour la prévision spatio-temporelle à grande échelle

PTQ1.61 : Repousser les limites réelles des méthodes de quantification post-apprentissage à très faible débit binaire pour les grands modèles linguistiques

Modèle de base des dossiers médicaux électroniques pour l'estimation adaptative des risques

Désapprentissage des outils pour les LLM enrichis par les outils

Vision sans images : vision par ordinateur de bout en bout à partir de mesures compressives uniques

Comment les modèles génératifs attirent-ils un ingénieur logiciel ? Étude de cas sur le biais de diffusion stable

3DTTNet : Modélisation de terrains traversables 3D basée sur la fusion multimodale pour les environnements hors route

DOGR : Vers une ancrage et un référencement visuels polyvalents des documents

Apprentissage par renforcement hors ligne dans le monde réel à partir des commentaires du modèle de langage visuel

Audits de la robustesse des modèles basés sur la causalité

AUTALIC : un ensemble de données pour le langage capacitiste anti-autiste en contexte

Au-delà de la récupération d'adaptateurs : composition préservant la géométrie latente via une projection de tâches clairsemées

Pyhgf : une bibliothèque de réseaux neuronaux pour le codage prédictif

Les préjugés humains face à l'IA : examen du jugement humain sur un texte étiqueté comme généré par l'IA

AVG-LLaVA : un modèle multimodal performant et de grande taille avec une granularité visuelle adaptative

Compression d'invite LLM guidée par arbres d'analyse

Un modèle, toute requête conjonctive : réseaux neuronaux graphiques pour répondre aux requêtes sur des graphes de connaissances incomplets

Une méthode MCTS de mise à jour parallèle basée sur la valeur pour la prise de décision coopérative multi-agents des véhicules connectés et automatisés

Définitions de l'équité dans les modèles linguistiques expliquées

CityLight : un modèle universel de contrôle coordonné des feux de circulation à l'échelle de la ville, incluant tous les quartiers

Réseau de fusion de données temporelles : vue multisources pour la prévision de séries chronologiques à long terme

Suivi d'objets visuels à long terme avec des caméras événementielles : un système de suivi à mémoire associative augmentée et un ensemble de données de référence

Hulk : un traducteur de connaissances universel pour les tâches centrées sur l'humain

De l'hypothèse de cluster à la convolution de graphes : l'apprentissage semi-supervisé basé sur les graphes revisité

Classification des bruits environnementaux sur une plate-forme matérielle embarquée

Inférence de dépendance des données pour la génération de code industriel basée sur des diagrammes de séquence UML

InqEduAgent : l'apprentissage adaptatif par IA s'associe à l'augmentation des processus gaussiens

Agent SE : Optimisation de trajectoire d'auto-évolution dans le raisonnement multi-étapes avec des agents basés sur LLM

RL-PLUS : Contrer l'effondrement des limites de capacité des LLM en apprentissage par renforcement grâce à l'optimisation des politiques hybrides

Modèles de débit à jauge supérieure

Réfléchir comment penser : atténuer la réflexion excessive grâce à la cognition autonome des difficultés dans les grands modèles de raisonnement

IS-Bench : Évaluation de la sécurité interactive des agents intégrés pilotés par VLM dans les tâches ménagères quotidiennes

SLR : Synthèse automatisée pour un raisonnement logique évolutif

L'illusion du SWE-Bench : quand les LLM de pointe se souviennent au lieu de raisonner

APOLLO : LLM automatisé et collaboration Lean pour un raisonnement formel avancé

Rationalisation coopérative contradictoire : le risque de corrélations erronées, même dans des ensembles de données propres

Apprendre à inférer de manière adaptative pour les grands modèles linguistiques multimodaux

Induction efficace des règles en ignorant les règles inutiles

Pourquoi l'agent a pris cette décision : apprentissage explicatif contrastif pour l'apprentissage par renforcement

ÉValuation des seuils de détection : impact des faux positifs et négatifs sur la microscopie de localisation par ultrasons à super-résolution

HyCodePolicy : Contrôleurs de langage hybrides pour la surveillance et la décision multimodales chez les agents intégrés

Created by

Haebom

Auteur

Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

Contour

Cet article présente les avancées récentes des modèles de langage multimodaux à grande échelle (MLLM), qui permettent de générer des preuves perceptuelles riches pour la génération de politiques de code dans les agents incarnés. La plupart des systèmes existants manquent de mécanismes efficaces pour surveiller de manière adaptative l'exécution des politiques et récupérer le code pendant l'exécution des tâches. Cette étude présente HyCodePolicy, un cadre de contrôle basé sur un langage hybride qui intègre systématiquement la synthèse de code, les preuves géométriques, la surveillance perceptuelle et la récupération itérative dans le cycle de programmation en boucle fermée des agents incarnés. Étant donné une instruction en langage naturel, le système la décompose d'abord en sous-objectifs et génère un programme exécutable initial basé sur des primitives géométriques orientées objet. Ensuite, pendant l'exécution du programme en simulation, un modèle de langage vision (VLM) observe des points de contrôle sélectionnés pour détecter, localiser et inférer la cause des échecs d'exécution. En intégrant des traces d'exécution structurées qui capturent les événements au niveau du programme avec un retour perceptuel basé sur le VLM, HyCodePolicy infère la cause des échecs et récupère le programme. Ce mécanisme hybride à double rétroaction permet la synthèse de programmes autocorrectifs avec une supervision humaine minimale. Les résultats expérimentaux démontrent que HyCodePolicy améliore significativement la robustesse et l'efficacité d'échantillonnage des politiques de manipulation des robots, offrant ainsi une stratégie évolutive pour intégrer l'inférence multimodale dans les pipelines de prise de décision autonome.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons HyCodePolicy, un nouveau cadre qui exploite l'inférence multimodale pour améliorer la robustesse et l'efficacité d'échantillonnage des politiques de manipulation de robots.

◦

Mise en œuvre d'un cycle de programmation en boucle fermée qui intègre la synthèse de code, la logique géométrique, la surveillance perceptive et la récupération itérative.

◦

Synthèse de programme autocorrectrice possible grâce à un mécanisme de rétroaction double hybride qui combine une rétroaction perceptuelle basée sur VLM et un suivi des événements au niveau du programme.

◦

Fournir une stratégie évolutive pour intégrer l'inférence multimodale dans des pipelines de prise de décision autonomes.

•

Limitations:

◦

Les performances de HyCodePolicy peuvent dépendre des performances du VLM et des autres composants utilisés.

◦

Peut avoir une capacité limitée à gérer des situations de défaillance complexes ou inattendues.

◦

Les performances dans un environnement simulé ne garantissent pas la généralisabilité aux environnements réels.

◦

Il convient de prendre en compte les contraintes et les problèmes supplémentaires qui peuvent survenir lors de l’application à des systèmes robotiques réels.

Voir le PDF

Made with Slashpage