Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy

Created by
  • Haebom

저자

Chi Kit Ng, Long Bai, Guankun Wang, Yupeng Wang, Huxin Gao, Kun Yuan, Chenhan Jin, Tieyong Zeng, Hongliang Ren

개요

본 논문은 내시경 절차에서 비정상 영역의 자율 추적 및 원형 절단 마커 추적을 통해 내시경 의사의 인지적 부담을 줄이는 방법을 제시합니다. 기존의 모델 기반 파이프라인은 각 구성 요소(예: 탐지, 모션 계획)에 대한 수동 조정이 필요하고 고차원적인 내시경 의도를 통합하는 데 어려움을 겪어 다양한 장면에서 일반화가 어렵다는 한계를 지닙니다. 이에 본 논문에서는 시각적 인식, 언어 기반, 모션 계획을 통합하는 Vision-Language-Action (VLA) 모델을 제안합니다. 특히, 위장관(GI)의 복잡하고 역동적인 해부학적 환경을 고려하여 연속 로봇을 위한 EndoVLA를 소개합니다. EndoVLA는 내시경 이미지와 외과의가 지시하는 추적 프롬프트를 받아 (1) 폴립 추적, (2) 비정상 점막 영역의 윤곽선 표시 및 추적, (3) 원형 절단 중 원형 마커 준수라는 세 가지 핵심 작업을 수행합니다. 데이터 부족과 도메인 이동 문제를 해결하기 위해 EndoVLA-Motion 데이터 세트에 대한 지도 미세 조정과 작업 인식 보상을 통한 강화 학습 미세 조정으로 구성된 이중 단계 전략을 제안합니다. 이를 통해 다양한 장면과 복잡한 순차적 작업에서 제로샷 일반화가 가능한 내시경 추적 성능 향상을 달성합니다.

시사점, 한계점

시사점:
VLA 모델을 이용하여 내시경 의사의 인지적 부담을 줄이고 수술 효율성을 높일 수 있습니다.
데이터 부족 문제를 해결하기 위한 효과적인 이중 단계 학습 전략을 제시합니다.
다양한 장면과 복잡한 순차적 작업에서 제로샷 일반화가 가능한 성능을 보입니다.
연속 로봇 기반 내시경 수술의 발전에 기여할 수 있습니다.
한계점:
EndoVLA-Motion 데이터셋의 크기 및 다양성에 대한 구체적인 정보가 부족합니다.
제시된 이중 단계 전략의 세부적인 알고리즘 및 하이퍼파라미터 조정에 대한 설명이 부족합니다.
실제 수술 환경에서의 안전성 및 신뢰성에 대한 검증이 필요합니다.
다양한 유형의 내시경 장비 및 질병에 대한 일반화 성능 평가가 추가적으로 필요합니다.
👍