Bài báo này so sánh hiệu suất của học bắt chước (IL) và học tăng cường (RL) đối với việc lập kế hoạch hành động phẫu thuật, dự đoán các hành động phẫu thuật trong tương lai (bộ ba dụng cụ-động từ-mục tiêu) trong phẫu thuật nội soi. Sử dụng tập dữ liệu CholecT50, chúng tôi đã so sánh và đánh giá Học bắt chước tự hồi quy kép (DARIL) dựa trên học bắt chước với ba biến thể học tăng cường (RL dựa trên mô hình thế giới, RL video trực tiếp và học tăng cường ngược được tăng cường). Kết quả cho thấy tất cả các kỹ thuật học tăng cường đều kém hiệu quả hơn DARIL dựa trên học bắt chước (ví dụ: RL mô hình thế giới đạt 3,1% mAP sau 10 giây) và việc khớp phân phối trên tập kiểm tra có chú thích của chuyên gia có xu hướng ủng hộ học bắt chước. Phát hiện này thách thức giả định thông thường về tính ưu việt của học tăng cường trong việc ra quyết định tuần tự.