Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage par imitation causale confondue avec des variables instrumentales

Created by
  • Haebom

Auteur

Yan Zeng, Shenglan Nie, Feng Xie, Libo Huang, Peng Wu, Zhi Geng

Contour

Dans cet article, nous proposons un nouveau modèle d'apprentissage par imitation, l'apprentissage par imitation causale confondue (C2L), qui utilise des variables instrumentales (VI) pour résoudre le problème des effets confondants des variables non mesurées (c'est-à-dire des variables potentiellement confondantes) sur les états et les actions dans l'apprentissage par imitation. Le modèle C2L prend en compte les variables confondantes qui affectent les actions sur plusieurs pas de temps et présente un cadre d'apprentissage par imitation en deux étapes pour identifier les VI valides et optimiser les politiques. Dans la première étape, nous présentons un critère de validation pour identifier les VI valides à partir de pseudovariables définies, et dans la seconde étape, nous proposons deux méthodes d'apprentissage des politiques, l'apprentissage sur simulateur et l'apprentissage hors ligne, utilisant les VI identifiées. Nous vérifions l'efficacité de l'identification des VI valides et de l'apprentissage des politiques par des expériences approfondies.

Takeaways, Limitations

Takeaways:
Nous présentons un modèle d’apprentissage par imitation plus robuste qui prend en compte l’influence des variables de confusion potentielles.
Offre la possibilité de gérer les effets des variables confondantes sur plusieurs étapes temporelles.
Nous présentons des critères clairs et des méthodes de test pour identifier des variables instrumentales valides.
Nous proposons deux méthodes d’apprentissage des politiques : l’apprentissage basé sur un simulateur et l’apprentissage hors ligne.
Limitations:
D’autres études sont nécessaires pour déterminer l’applicabilité des critères et méthodes de sélection proposés aux données réelles.
Des évaluations des performances de généralisation sont nécessaires pour différents types de variables confondantes et d’environnements complexes.
L’identification des variables instrumentales n’est pas toujours possible, ce qui peut entraîner de mauvaises performances du modèle.
👍