Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery
Created by
Haebom
Category
Empty
저자
Guankun Wang, Long Bai, Wan Jun Nah, Jie Wang, Zhaoxi Zhang, Zhen Chen, Jinlin Wu, Mobarakol Islam, Hongbin Liu, Hongliang Ren
개요
본 논문은 수술용 시각 질문 응답(Surgical-VQA) 및 관련 영역 지정 분야의 발전을 바탕으로, 개인 맞춤형 수술 멘토링을 위한 자동화된 방법의 중요성을 해결하기 위해, 복잡한 수술 시나리오에 맞춘 새로운 개인 맞춤형 대규모 시각-언어 모델인 Surgical-LVLM을 제시합니다. 기존 모델의 장거리 의존성 인식 및 다중 모드 정보 정렬의 제한된 기능으로 인해 복잡한 시나리오에서 어려움을 겪는다는 점을 해결하고자, 사전 훈련된 대규모 시각-언어 모델과 특수한 Visual Perception LoRA (VP-LoRA) 블록을 활용하여 복잡한 시각-언어 작업을 이해하는 데 탁월한 성능을 보입니다. 영역 지정 작업을 해결하기 위해, 잠재 공간으로 투영한 후 대규모 시각 언어 모델(LVLM)의 언어 응답과 지정 모듈 간의 상호 작용을 강화하는 Token-Interaction (TIT) 모듈을 제안합니다. EndoVis-17-VQLA, EndoVis-18-VQLA 및 새롭게 도입된 EndoVis Conversations 데이터셋을 포함한 여러 벤치마크에서 Surgical-LVLM의 효과를 보여주며, 새로운 성능 기준을 설정합니다. 본 연구는 맥락을 인식하는 솔루션을 제공함으로써 자동화된 수술 멘토링 분야 발전에 기여합니다.
시사점, 한계점
•
시사점:
◦
복잡한 수술 시나리오에서 뛰어난 성능을 보이는 새로운 개인 맞춤형 대규모 시각-언어 모델 Surgical-LVLM을 제시.
◦
TIT 모듈을 통해 LVLM의 언어 응답과 지정 모듈 간의 상호 작용을 강화하여 영역 지정 작업의 정확도 향상.
◦
EndoVis-17-VQLA, EndoVis-18-VQLA 및 EndoVis Conversations 데이터셋에서 새로운 성능 기준 설정.
◦
자동화된 수술 멘토링 분야 발전에 기여.
•
한계점:
◦
본 논문에서는 구체적인 한계점이 언급되지 않음. 향후 연구를 통해 모델의 일반화 성능, robustness, 다양한 수술 유형에 대한 적용성 등에 대한 추가적인 연구가 필요할 것으로 예상됨.