[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Orbis : surmonter les défis de la prévision à long terme dans les modèles mondiaux de conduite

Created by
  • Haebom

Auteur

Arian Mousakhan, Sudhanshu Mittal, Silvio Galesso, Karim Farid, Thomas Brox

Contour

Dans cet article, nous soulignons que les modèles mondiaux existants pour la conduite autonome peinent à prédire et à généraliser à long terme les situations difficiles. Nous développons un modèle qui atteint d'excellentes performances sans supervision ni capteurs supplémentaires (par exemple, cartes, profondeur, caméras multiples, etc.) grâce à des choix de conception simples. Malgré seulement 469 millions de paramètres entraînés sur 280 heures de données vidéo, nous obtenons des performances de pointe, notamment dans des situations difficiles telles que les virages et la circulation urbaine. De plus, nous comparons directement les forces et les faiblesses d'un modèle continu basé sur la correspondance de flux et d'un modèle à jetons discrets utilisant un tokenizer hybride, et concluons que le modèle autorégressif continu est moins vulnérable aux choix de conception individuels et plus robuste. Le code, le modèle et les résultats qualitatifs sont accessibles au public.

Takeaways, Limitations

Takeaways:
Nous démontrons qu’il est possible de construire un bon modèle mondial de conduite autonome même avec des conceptions simples et des données limitées.
Présentation d'un modèle qui démontre des points forts dans des situations de conduite difficiles (virages, circulation urbaine, etc.).
Démonstration expérimentale de la supériorité du modèle autorégressif continu.
Faciliter la reproductibilité et le suivi des recherches grâce au code ouvert et aux résultats.
Limitations:
280 heures de données vidéo peuvent constituer un ensemble de données relativement limité. Des améliorations de performances sont possibles avec une utilisation accrue.
Une validation supplémentaire des performances de généralisation dans une variété d’environnements et de situations est nécessaire.
Analyse comparative utilisant un tokeniseur hybride, mais manque de comparaison avec d'autres types de modèles.
👍