본 논문은 복강경 수술에서 미래 수술 행동(instrument-verb-target triplet)을 예측하는 수술 행동 계획에 대한 모방 학습(IL)과 강화 학습(RL)의 성능을 비교 분석한 연구입니다. CholecT50 데이터셋을 사용하여, 모방 학습 기반의 Dual-task Autoregressive Imitation Learning (DARIL)과 세 가지 강화 학습 변형 (세계 모델 기반 RL, 직접 비디오 RL, 역강화 학습 향상)을 비교 평가했습니다. 그 결과, 모든 강화 학습 기법이 모방 학습 기반 DARIL보다 성능이 낮았으며(예: 세계 모델 RL은 10초 후 3.1% mAP), 전문가 주석이 있는 테스트 세트에서의 분포 매칭이 모방 학습을 선호하는 경향을 보이는 것으로 나타났습니다. 이는 순차적 의사결정에서 강화 학습의 우월성에 대한 기존 가정에 도전하는 결과입니다.