Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Quand l'apprentissage par imitation surpasse l'apprentissage par renforcement dans la planification des interventions chirurgicales

작성자
  • Haebom

Auteur

Maxence Boels, Harry Robertshaw, Thomas C Booth, Prokar Dasgupta, Alejandro Granados, Sébastien Ourselin

Contour

Cet article compare les performances de l'apprentissage par imitation (IL) et de l'apprentissage par renforcement (RL) pour la planification des interventions chirurgicales, qui prédit les interventions chirurgicales futures (triplet instrument-verbe-cible) en chirurgie laparoscopique. À l'aide du jeu de données CholecT50, nous avons comparé et évalué l'apprentissage par imitation autorégressif à double tâche (DARIL) basé sur l'apprentissage par imitation avec trois variantes d'apprentissage par renforcement (RL basé sur un modèle d'environnement, RL vidéo directe et apprentissage par renforcement inverse amélioré). Les résultats montrent que toutes les techniques d'apprentissage par renforcement sont moins performantes que le DARIL basé sur l'apprentissage par imitation (par exemple, l'RL basé sur un modèle d'environnement a atteint 3,1 % de mAP après 10 secondes), et l'appariement de distribution sur l'ensemble de tests annotés par des experts tend à favoriser l'apprentissage par imitation. Ce résultat remet en cause l'hypothèse conventionnelle de la supériorité de l'apprentissage par renforcement dans la prise de décision séquentielle.

Takeaways, Limitations

Takeaways:
Nous avons démontré expérimentalement la supériorité de l’apprentissage par imitation dans la planification des actions chirurgicales.
Nous avons analysé la cause de la dégradation des performances dans l'apprentissage par renforcement comme un biais de correspondance de distribution dans l'ensemble de données d'annotation d'experts.
Fournit des informations importantes sur le développement de l’IA chirurgicale.
Cela suggère que les hypothèses existantes sur la supériorité de l’apprentissage par renforcement dans la prise de décision séquentielle devraient être reconsidérées.
Limitations:
L’utilisation d’un seul ensemble de données CholecT50 peut avoir une généralisabilité limitée.
Des discussions plus approfondies pourraient être nécessaires concernant la mesure d’évaluation (mAP).
Des recherches supplémentaires sont nécessaires sur divers algorithmes d’apprentissage par renforcement et sur le réglage des hyperparamètres.
Une nouvelle approche est nécessaire pour surmonter le biais de correspondance de distribution dans les ensembles de données d’annotation d’experts.
👍