Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Modèles de langage auto-questionnés

Au-delà du risque : un prototype de cadre pour évaluer l'impact sociétal des systèmes d'IA

Réduction dimensionnelle dynamique supervisée avec réseau neuronal profond

EmoSteer-TTS : synthèse vocale fine et sans formation, contrôlable par les émotions via le pilotage par activation

Les LLM ont un cœur de pierre : démystifier la capacité de réflexion douce des grands modèles de raisonnement

Optimisation de code industrielle basée sur LLM sous réglementation : une approche par mélange d'agents

Protocole d'évaluation fiable pour la récupération de faible précision

Landsat30-AU : un ensemble de données vision-langage pour l'imagerie Landsat australienne

Apprentissage par renforcement intégré aux outils pour la recherche approfondie dans les référentiels

CauKer : les modèles de base de séries chronologiques de classification peuvent être pré-entraînés uniquement sur des données synthétiques

Intégration multi-invites adaptative au contexte avec de grands modèles de langage pour l'alignement vision-langage

DMSC : Cadre de coordination multi-échelle dynamique pour la prévision des séries chronologiques

HyCodePolicy : Contrôleurs de langage hybrides pour la surveillance et la décision multimodales chez les agents intégrés

Apprentissage de la représentation des entités via un graphique sur site/hors site pour les publicités Pinterest

ÉValuation de l'expérience utilisateur dans les systèmes de recommandation conversationnelle : une revue systématique des approches classiques et basées sur le LLM

Connaissance des fréquences spatiales pour la détection d'objets dans les images RAW

Apprentissage de la manipulation pivotante avec retour de force et de vision à l'aide de démonstrations basées sur l'optimisation

NCCR : évaluer la robustesse des réseaux neuronaux et des exemples contradictoires

ChartM$^3$ : Analyse comparative de l'édition de graphiques avec des instructions multimodales

De l'intrication à l'alignement : décomposition de l'espace de représentation pour l'adaptation de domaine de séries temporelles non supervisées

EcoTransformer : Attention sans multiplication

Les confettis de Bob : attaques de mémorisation phonétique dans la création musicale et vidéo

SDBench : une suite complète de benchmarks pour la diarisation des locuteurs

Un véritable apprentissage multimodal en contexte nécessite une attention au contexte visuel

Modèles de débit de jauge

Recherche d'architecture neuronale à zéro coup avec corrélation de réponse pondérée

Le côté obscur des LLM : attaques basées sur des agents pour une prise de contrôle complète des ordinateurs

CAVGAN : Unifier le jailbreak et la défense des LLM via des attaques antagonistes génératives sur leurs représentations internes

VOTE : Optimisation vision-langage-action avec le vote d'ensemble de trajectoires

ÉTude comparative des LLM spécialisés en tant que récupérateurs denses

Désambiguïsation de la détection des signes à l'aide de grands modèles linguistiques

UnMix-NeRF : le démixage spectral rencontre les champs de rayonnement neuronal

Ancrages de pensée : quelles étapes du raisonnement LLM sont importantes ?

UITron-Speech : vers des agents d'interface utilisateur automatisés basés sur des instructions vocales

15 500 secondes : Classification allégée des drones grâce à EfficientNet et à un réglage fin léger

AtmosMJ : Réexamen du mécanisme de blocage pour les prévisions météorologiques par IA au-delà de l'échelle annuelle

Sur l'impossibilité fondamentale du contrôle des hallucinations dans les grands modèles de langage

Modèles de fondation fédérés multimodaux et multitâches pour les systèmes de réalité étendue de nouvelle génération : vers une intelligence distribuée préservant la confidentialité en RA/RV/RM

Le raisonnement textuel libère les évaluateurs multimodaux à zéro coup

CAIN : Détournement de LLM – Conversations humaines via des invites système malveillantes

Expliquez moins, comprenez plus : détection du jargon grâce à un réglage fin personnalisé et efficace des paramètres

Qu'est-ce qui vit ? Une méta-analyse de diverses opinions sur la définition de la vie.

Un recuit neuronal génératif pour l'optimisation combinatoire en boîte noire

GRILL : Restauration du signal de gradient dans les couches mal conditionnées pour améliorer les attaques adverses sur les auto-encodeurs

CostFilter-AD : Amélioration de la détection des anomalies grâce au filtrage des coûts correspondants

Mj\"olnir : un cadre de paramétrisation d'apprentissage profond pour la densité globale des éclairs

Reconnaissance des attributs piétons basée sur les événements RVB : un ensemble de données de référence et un cadre de fusion RWKV asymétrique

ProtoECGNet : Apprentissage profond interprétable basé sur des cas pour la classification d'ECG multi-étiquettes avec apprentissage contrastif

Au-delà des images grand angle : correction de la structure des portraits vidéo en détail via une adaptation spatio-temporelle non supervisée

CITRAS : Transformateur informé par covariable pour la prévision des séries chronologiques

Une rubrique suffit : Améliorer l'évaluation du code basée sur la LLM grâce à des rubriques spécifiques aux questions

Analyse empirique de la co-formation en simulation et en réel des politiques de diffusion pour la poussée planaire à partir de pixels

SimpleRL-Zoo : Enquête et maîtrise de l'apprentissage par renforcement zéro pour les modèles à base ouverte dans la nature

NuPlanQA : un ensemble de données à grande échelle et une référence pour la compréhension de scènes de conduite multi-vues dans des modèles multimodaux à grand langage

L'impact des défauts d'écriture des items sur la difficulté et la discrimination dans la théorie de la réponse aux items

À Travers la loupe : grossissement adaptatif de la perception pour un décodage VLM sans hallucinations

Recherche-R1 : Former les LLM à raisonner et à exploiter les moteurs de recherche grâce à l'apprentissage par renforcement

Planification des requêtes par extraction pour une communication sémantique orientée vers les objectifs

Accélération de la recherche focale dans la recherche de chemin multi-agent avec des limites inférieures plus strictes

RAILGUN : une politique convolutionnelle unifiée pour la recherche de chemin multi-agents dans différents environnements et tâches

UltraSTF : modèle ultra-compact pour la prévision spatio-temporelle à grande échelle

PTQ1.61 : Repousser les limites réelles des méthodes de quantification post-apprentissage à très faible débit binaire pour les grands modèles linguistiques

Modèle de base des dossiers médicaux électroniques pour l'estimation adaptative des risques

Désapprentissage des outils pour les LLM enrichis par les outils

Vision sans images : vision par ordinateur de bout en bout à partir de mesures compressives uniques

Comment les modèles génératifs attirent-ils un ingénieur logiciel ? Étude de cas sur le biais de diffusion stable

3DTTNet : Modélisation de terrains traversables 3D basée sur la fusion multimodale pour les environnements hors route

DOGR : Vers une ancrage et un référencement visuels polyvalents des documents

Apprentissage par renforcement hors ligne dans le monde réel à partir des commentaires du modèle de langage visuel

Audits de la robustesse des modèles basés sur la causalité

AUTALIC : un ensemble de données pour le langage capacitiste anti-autiste en contexte

Au-delà de la récupération d'adaptateurs : composition préservant la géométrie latente via une projection de tâches clairsemées

Pyhgf : une bibliothèque de réseaux neuronaux pour le codage prédictif

Les préjugés humains face à l'IA : examen du jugement humain sur un texte étiqueté comme généré par l'IA

AVG-LLaVA : un modèle multimodal performant et de grande taille avec une granularité visuelle adaptative

Compression d'invite LLM guidée par arbres d'analyse

Un modèle, toute requête conjonctive : réseaux neuronaux graphiques pour répondre aux requêtes sur des graphes de connaissances incomplets

Une méthode MCTS de mise à jour parallèle basée sur la valeur pour la prise de décision coopérative multi-agents des véhicules connectés et automatisés

Définitions de l'équité dans les modèles linguistiques expliquées

CityLight : un modèle universel de contrôle coordonné des feux de circulation à l'échelle de la ville, incluant tous les quartiers

Réseau de fusion de données temporelles : vue multisources pour la prévision de séries chronologiques à long terme

Suivi d'objets visuels à long terme avec des caméras événementielles : un système de suivi à mémoire associative augmentée et un ensemble de données de référence

Hulk : un traducteur de connaissances universel pour les tâches centrées sur l'humain

De l'hypothèse de cluster à la convolution de graphes : l'apprentissage semi-supervisé basé sur les graphes revisité

Classification des bruits environnementaux sur une plate-forme matérielle embarquée

Inférence de dépendance des données pour la génération de code industriel basée sur des diagrammes de séquence UML

InqEduAgent : l'apprentissage adaptatif par IA s'associe à l'augmentation des processus gaussiens

Agent SE : Optimisation de trajectoire d'auto-évolution dans le raisonnement multi-étapes avec des agents basés sur LLM

RL-PLUS : Contrer l'effondrement des limites de capacité des LLM en apprentissage par renforcement grâce à l'optimisation des politiques hybrides

Modèles de débit à jauge supérieure

Réfléchir comment penser : atténuer la réflexion excessive grâce à la cognition autonome des difficultés dans les grands modèles de raisonnement

IS-Bench : Évaluation de la sécurité interactive des agents intégrés pilotés par VLM dans les tâches ménagères quotidiennes

SLR : Synthèse automatisée pour un raisonnement logique évolutif

L'illusion du SWE-Bench : quand les LLM de pointe se souviennent au lieu de raisonner

APOLLO : LLM automatisé et collaboration Lean pour un raisonnement formel avancé

Rationalisation coopérative contradictoire : le risque de corrélations erronées, même dans des ensembles de données propres

Apprendre à inférer de manière adaptative pour les grands modèles linguistiques multimodaux

Induction efficace des règles en ignorant les règles inutiles

Pourquoi l'agent a pris cette décision : apprentissage explicatif contrastif pour l'apprentissage par renforcement

ÉValuation des seuils de détection : impact des faux positifs et négatifs sur la microscopie de localisation par ultrasons à super-résolution

Apprentissage par renforcement hors ligne dans le monde réel à partir des commentaires du modèle de langage visuel

Created by

Haebom

Auteur

Sreyas Venkataraman, Yufei Wang, Ziyu Wang, Navin Sriram Ravie, Zackory Erickson, David Held

Contour

Cet article traite de l'apprentissage par renforcement hors ligne (ORL), qui permet l'apprentissage de politiques à partir d'ensembles de données pré-collectés et sous-optimaux, sans interaction en ligne. Cette approche est particulièrement adaptée aux robots réels ou aux scénarios critiques pour la sécurité, où la collecte de données en ligne ou les démonstrations d'experts sont lentes, coûteuses et dangereuses. La plupart des études d'apprentissage par renforcement hors ligne existantes supposent que l'ensemble de données est déjà étiqueté avec des récompenses pour les tâches, mais cela nécessite des efforts considérables, en particulier dans les scénarios réels où la vérité terrain est difficile à déterminer. Dans cet article, nous proposons un nouveau système basé sur RL-VLM-F, qui génère automatiquement des étiquettes de récompense pour les ensembles de données hors ligne, en utilisant le retour d'information sur les préférences d'un modèle de langage visuel et les descriptions textuelles des tâches. Cette méthode entraîne des politiques par RL hors ligne avec l'ensemble de données de récompense étiqueté. Nous démontrons son applicabilité à la tâche complexe d'habillage d'un robot réel. Nous apprenons d'abord les fonctions de récompense à partir d'un ensemble de données hors ligne sous-optimal à l'aide d'un modèle de langage visuel, puis utilisons les récompenses apprises pour développer une politique d'habillage efficace par apprentissage Q implicite. Il est également performant dans les tâches de simulation impliquant la manipulation d'objets rigides et déformables, surpassant largement les performances de référence telles que le clonage de comportement et l'apprentissage par renforcement inverse (RL). En résumé, nous proposons un nouveau système permettant l'étiquetage automatique des récompenses et l'apprentissage de politiques à partir d'ensembles de données hors ligne non étiquetés et sous-optimaux.

Takeaways, Limitations

•

Takeaways:

◦

Nous présentons une nouvelle méthode permettant de générer automatiquement des étiquettes de récompense pour des ensembles de données hors ligne à l'aide de modèles de langage visuel, augmentant ainsi l'applicabilité réelle de l'apprentissage par renforcement hors ligne.

◦

Il surpasse les méthodes existantes dans les tâches réelles d'habillage de robots et dans les tâches de simulation.

◦

Nous démontrons l’efficacité de l’apprentissage par renforcement hors ligne pour des tâches complexes.

•

Limitations:

◦

Cela dépend des performances du modèle vision-langage, et une dégradation des performances du modèle peut affecter les performances de l'ensemble du système.

◦

Une validation supplémentaire de la capacité de généralisation du modèle vision-langage utilisé est nécessaire.

◦

Des recherches sont nécessaires pour améliorer davantage la généralisabilité de l’apprentissage de la fonction de récompense pour des tâches spécifiques.

◦

Les performances peuvent varier en fonction de la variété et de la complexité des ensembles de données du monde réel.

Voir le PDF

Made with Slashpage