[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VITA : Politique de mise en correspondance des flux de la vision à l'action

Created by
  • Haebom

Auteur

Dechen Gao, Boqi Zhao, Andrew Lee, Ian Chuang, Hanchu Zhou, Hang Wang, Zhe Zhao, Junshan Zhang, Iman Soltani

Contour

VITA est une stratégie de correspondance de flux vision-action qui assure le contrôle visuomoteur en transformant les représentations visuelles latentes en actions latentes. Les stratégies de correspondance de flux et de diffusion existantes utilisent des distributions de sources standard, telles que le bruit gaussien, et nécessitent des mécanismes de conditionnement supplémentaires, comme l'attention croisée, pour conditionner la génération d'actions sur les informations visuelles, ce qui entraîne des surcharges temporelles et spatiales. VITA présente un nouveau paradigme qui traite les images latentes comme des sources de flux, éliminant ainsi les modules de conditionnement distincts et apprenant une correspondance unique entre la vision et l'action, tout en conservant les capacités de modélisation générative. L'apprentissage des flux entre des modalités fondamentalement différentes, telles que la vision et l'action, est complexe en raison de la rareté des données d'action, dépourvues de structure sémantique et présentant des discordances dimensionnelles entre les représentations visuelles de grande dimension et les actions brutes. Pour résoudre ce problème, nous générons un espace latent d'action structuré comme cible de correspondance de flux via un auto-encodeur et suréchantillonnons les actions brutes pour qu'elles correspondent à la forme de la représentation visuelle. Il est important de noter que nous supervisons la correspondance de flux en utilisant à la fois la cible de l'encodeur et la sortie de l'action finale via un décodage latent de flux, et rétropropageons la perte de reconstruction de l'action via une étape de résolution d'EDO séquentielle de correspondance de flux pour un apprentissage de bout en bout efficace. Implémentée comme une simple couche MLP, VITA est évaluée sur des tâches bimanuelles complexes, dont cinq tâches simulées et deux tâches réelles sur la plateforme ALOHA. Malgré sa simplicité, VITA, exclusivement MLP, surpasse ou égale les politiques génératives de pointe, tout en réduisant la latence d'inférence de 50 à 130 % par rapport aux politiques de correspondance de flux existantes. À notre connaissance, VITA est la première politique de correspondance de flux exclusivement MLP capable de résoudre des tâches bimanuelles complexes telles que le benchmark ALOHA.

Takeaways, Limitations_

Takeaways:
Nous proposons une nouvelle méthode de correspondance de flux qui mappe directement les informations visuelles latentes aux actions latentes, éliminant ainsi les mécanismes de conditionnement supplémentaires et les structures complexes des méthodes existantes et améliorant l'efficacité.
En effectuant avec succès des tâches complexes de manipulation bimanuelle en utilisant uniquement des MLP, nous démontrons la simplicité et l'efficacité de notre modèle.
Nous obtenons une amélioration de 50 à 130 % de la vitesse d’inférence par rapport aux politiques génératives de pointe existantes.
Limitations:
ÉTant donné qu'il a été évalué uniquement pour des tâches spécifiques sur la plateforme ALOHA, les performances de généralisation à d'autres tâches ou plateformes nécessitent une étude plus approfondie.
Il est nécessaire de prendre en compte la perte d’informations qui peut survenir lors de la génération d’un espace latent structuré à l’aide d’un autoencodeur.
En raison de sa structure simple utilisant uniquement MLP, sa capacité de généralisation à des tâches plus complexes et plus diverses peut être limitée.
👍