[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FONDATEUR : Ancrer les modèles de fondation dans les modèles mondiaux pour une prise de décision incarnée ouverte

Created by
  • Haebom

Auteur

Yucen Wang, Rui Yu, Shenghua Wan, Le Gan, De-Chuan Zhan

Contour

FOUNDER est un framework qui intègre les connaissances généralisées du modèle de fondation (FM) aux capacités de modélisation dynamique du modèle du monde (WM) pour permettre la résolution de tâches ouvertes dans des environnements sans récompense. Il apprend une fonction qui mappe la représentation du FM à l'espace d'état du WM afin de déduire l'état physique de l'agent dans le simulateur du monde à partir d'observations externes. Cette cartographie nous permet d'apprendre une politique de conditionnement d'objectif par l'imagination lors de l'apprentissage de l'action, et utilise l'action mappée comme état objectif. La distance temporelle prédite jusqu'à l'état objectif est utilisée comme signal de récompense riche en informations. FOUNDER obtient de bons résultats sur divers tests de contrôle visuel hors ligne multitâches et excelle à saisir le sens profond des tâches présentées sous forme de texte ou de vidéo, en particulier dans les scénarios comportant des observations complexes ou des lacunes dans le domaine où les méthodes existantes peinent à s'exécuter. La cohérence de la fonction de récompense apprise avec la récompense réelle est également vérifiée expérimentalement. Le site web du projet est le https://sites.google.com/view/founder-rl .

Takeaways, Limitations

Takeaways:
Intégrer le modèle de base et le modèle du monde pour suggérer la possibilité de résoudre des problèmes ouverts dans un environnement mis en œuvre sans compensation.
Il fonctionne bien dans les scénarios avec des observations complexes ou des lacunes de domaine.
Capturez efficacement le sens profond d’une tâche spécifiée dans un texte ou une vidéo.
Vérification expérimentale de la cohérence de la fonction de récompense apprise.
Limitations:
La vérification des performances de généralisation pour d’autres environnements ou tâches au-delà des repères présentés est nécessaire.
Des recherches supplémentaires sont nécessaires sur l’interprétabilité et la fiabilité de la fonction de mappage apprise.
La précision du modèle mondial peut être fortement dépendante. Des erreurs dans ce modèle peuvent affecter directement le comportement de l'agent.
👍