Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine

Created by
  • Haebom

저자

Xiaoshuang Huang, Lingdong Shen, Jia Liu, Fangxin Shang, Hongxiang Li, Haifeng Huang, Yehui Yang

개요

MedPLIB는 픽셀 수준 이해를 갖춘 새로운 엔드투엔드 다중 모드 대형 언어 모델로, 시각적 질의 응답(VQA), 임의의 픽셀 수준 프롬프트(점, 경계 상자, 자유형 모양), 그리고 픽셀 수준의 접지 기능을 지원합니다. MoE (Mixture-of-Experts) 다단계 훈련 전략을 사용하여 시각-언어 전문가 모델과 픽셀-접지 전문가 모델에 대한 별도의 훈련 단계를 거친 후 MoE를 사용하여 미세 조정합니다. 또한 복잡한 의료 영상 질의 응답 및 이미지 영역 이해를 위한 8가지 모달리티로 구성된 Medical Complex Vision Question Answering Dataset (MeCoVQA)를 소개합니다. MedPLIB는 여러 의료 시각 언어 작업에서 최첨단 결과를 달성했으며, 픽셀 접지 작업에 대한 제로샷 평가에서 mDice 메트릭 기준으로 최고의 소형 및 대형 모델보다 각각 19.7 및 15.6의 마진으로 앞섰습니다.

시사점, 한계점

MedPLIB는 픽셀 수준 이해를 통해 의료 분야에서 더욱 발전된 다중 모달리티 기능을 제공합니다.
MoE 훈련 전략은 계산 비용을 유지하면서 효율적인 멀티태스크 학습을 가능하게 합니다.
MeCoVQA 데이터셋은 의료 이미지 이해 연구를 촉진합니다.
제로샷 픽셀 접지 성능은 모델의 일반화 능력을 보여줍니다.
한계점은 논문에 명시되지 않았습니다.
👍