Sign In

Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery

Created by
  • Haebom
Category
Empty

저자

Guankun Wang, Long Bai, Wan Jun Nah, Jie Wang, Zhaoxi Zhang, Zhen Chen, Jinlin Wu, Mobarakol Islam, Hongbin Liu, Hongliang Ren

개요

본 논문은 수술용 시각 질문 답변(Surgical-VQA) 및 관련 영역 지정 분야의 발전에 기반하여, 개인 맞춤형 수술 지도를 위한 자동화된 방법의 필요성을 해결하는 새로운 개인 맞춤형 대규모 시각-언어 모델인 Surgical-LVLM을 제시합니다. 기존 모델들이 단순한 구조적 답변만 제공하고 장기 의존성 인식 및 다중 모달 정보 정렬 능력의 한계로 복잡한 시나리오 처리에 어려움을 겪는다는 점을 보완하고자, 사전 훈련된 대규모 시각-언어 모델과 특수한 시각적 인식 LoRA(VP-LoRA) 블록을 활용하여 복잡한 수술 상황 내 시각-언어 작업 이해에 탁월한 성능을 보이는 모델을 개발했습니다. 영역 지정 작업을 위해 제안된 토큰 상호 작용(TIT) 모듈은 잠재 공간으로 투영한 후 대규모 시각 언어 모델(LVLM)의 언어 응답과 지정 모듈 간 상호 작용을 강화합니다. EndoVis-17-VQLA, EndoVis-18-VQLA 및 새롭게 도입된 EndoVis Conversations 데이터셋을 포함한 여러 벤치마크에서 Surgical-LVLM의 효과를 입증하여 새로운 성능 기준을 설정하였으며, 문맥 인식 솔루션을 제공함으로써 자동화된 수술 지도 분야 발전에 기여합니다.

시사점, 한계점

시사점:
복잡한 수술 시나리오에서 시각-언어 작업 이해를 위한 새로운 개인 맞춤형 대규모 시각-언어 모델 Surgical-LVLM 제시.
TIT 모듈을 통한 LVLM의 언어 응답과 지정 모듈 간 상호 작용 강화로 성능 향상.
EndoVis-17-VQLA, EndoVis-18-VQLA, EndoVis Conversations 데이터셋에서 새로운 성능 기준 설정.
자동화된 수술 지도 분야 발전에 기여하는 문맥 인식 솔루션 제공.
한계점:
논문에서 구체적인 한계점이 명시적으로 언급되지 않음. 향후 연구를 통해 모델의 일반화 성능, 다양한 수술 유형에 대한 적용 가능성, 실제 수술 환경 적용 시 발생할 수 있는 문제점 등에 대한 추가적인 연구가 필요할 것으로 예상됨.
👍