본 논문은 수술 지능에 비전-언어 모델(VLMs)을 통합하는 데 있어 환각, 도메인 지식 격차, 수술 장면 내 작업 상호 의존성에 대한 이해 부족으로 인한 임상적 신뢰성 저하 문제를 해결하기 위해 제시된 SurgRAW라는 CoT(Chain-of-Thought)-기반 다중 에이전트 프레임워크를 소개한다. SurgRAW는 도구 인식, 행동 인식, 행동 예측, 환자 데이터 추출, 결과 평가 등 다섯 가지 작업에 특화된 CoT 프롬프트를 사용하여 구조적이고 도메인 인식 추론을 통해 환각을 완화한다. 외부 의학 지식에 대한 RAG(Retrieval-Augmented Generation) 통합을 통해 도메인 격차를 해소하고 응답 신뢰성을 향상시킨다. 계층적 에이전트 시스템은 CoT 기반 VLM 에이전트 간의 효과적인 협업과 작업 상호 의존성 이해를 보장하며, 패널 토론 메커니즘을 통해 논리적 일관성을 높인다. 추론 기반 데이터셋인 SurgCoTBench를 도입하여 방법론을 평가하고, 12가지 로봇 수술 절차에서 기준 VLM 대비 29.32%의 정확도 향상을 보이며 최첨단 성능을 달성함을 실험적으로 입증한다.