Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery

Created by
  • Haebom
Category
Empty

저자

Guankun Wang, Long Bai, Wan Jun Nah, Jie Wang, Zhaoxi Zhang, Zhen Chen, Jinlin Wu, Mobarakol Islam, Hongbin Liu, Hongliang Ren

개요

본 논문은 수술용 시각 질문 응답(Surgical-VQA) 및 관련 영역 지정 분야의 발전을 바탕으로, 개인 맞춤형 수술 멘토링을 위한 자동화된 방법의 중요성을 해결하기 위해, 복잡한 수술 시나리오에 맞춘 새로운 개인 맞춤형 대규모 시각-언어 모델인 Surgical-LVLM을 제시합니다. 기존 모델의 장거리 의존성 인식 및 다중 모드 정보 정렬의 제한된 기능으로 인해 복잡한 시나리오에서 어려움을 겪는다는 점을 해결하고자, 사전 훈련된 대규모 시각-언어 모델과 특수한 Visual Perception LoRA (VP-LoRA) 블록을 활용하여 복잡한 시각-언어 작업을 이해하는 데 탁월한 성능을 보입니다. 영역 지정 작업을 해결하기 위해, 잠재 공간으로 투영한 후 대규모 시각 언어 모델(LVLM)의 언어 응답과 지정 모듈 간의 상호 작용을 강화하는 Token-Interaction (TIT) 모듈을 제안합니다. EndoVis-17-VQLA, EndoVis-18-VQLA 및 새롭게 도입된 EndoVis Conversations 데이터셋을 포함한 여러 벤치마크에서 Surgical-LVLM의 효과를 보여주며, 새로운 성능 기준을 설정합니다. 본 연구는 맥락을 인식하는 솔루션을 제공함으로써 자동화된 수술 멘토링 분야 발전에 기여합니다.

시사점, 한계점

시사점:
복잡한 수술 시나리오에서 뛰어난 성능을 보이는 새로운 개인 맞춤형 대규모 시각-언어 모델 Surgical-LVLM을 제시.
TIT 모듈을 통해 LVLM의 언어 응답과 지정 모듈 간의 상호 작용을 강화하여 영역 지정 작업의 정확도 향상.
EndoVis-17-VQLA, EndoVis-18-VQLA 및 EndoVis Conversations 데이터셋에서 새로운 성능 기준 설정.
자동화된 수술 멘토링 분야 발전에 기여.
한계점:
본 논문에서는 구체적인 한계점이 언급되지 않음. 향후 연구를 통해 모델의 일반화 성능, robustness, 다양한 수술 유형에 대한 적용성 등에 대한 추가적인 연구가 필요할 것으로 예상됨.
👍