Cet article compare les performances de l'apprentissage par imitation (IL) et de l'apprentissage par renforcement (RL) pour la planification des interventions chirurgicales, qui prédit les interventions chirurgicales futures (triplet instrument-verbe-cible) en chirurgie laparoscopique. À l'aide du jeu de données CholecT50, nous avons comparé et évalué l'apprentissage par imitation autorégressif à double tâche (DARIL) basé sur l'apprentissage par imitation avec trois variantes d'apprentissage par renforcement (RL basé sur un modèle d'environnement, RL vidéo directe et apprentissage par renforcement inverse amélioré). Les résultats montrent que toutes les techniques d'apprentissage par renforcement sont moins performantes que le DARIL basé sur l'apprentissage par imitation (par exemple, l'RL basé sur un modèle d'environnement a atteint 3,1 % de mAP après 10 secondes), et l'appariement de distribution sur l'ensemble de tests annotés par des experts tend à favoriser l'apprentissage par imitation. Ce résultat remet en cause l'hypothèse conventionnelle de la supériorité de l'apprentissage par renforcement dans la prise de décision séquentielle.