GMAT: Grounded Multi-Agent Clinical Description Generation for Text Encoder in Vision-Language MIL for Whole Slide Image Classification
Created by
Haebom
Category
Empty
저자
Ngoc Bui Lam Quang, Nam Le Nguyen Binh, Thanh-Huy Nguyen, Le Thien Phuc Nguyen, Quan Nguyen, Ulas Bagci
개요
Multiple Instance Learning (MIL)은 전체 슬라이드 이미지(WSI) 분류를 위한 선도적인 접근 방식이며, 비전-언어 모델(VLM)을 MIL 파이프라인에 통합하여 텍스트 기반 클래스 설명을 통해 의료 지식을 통합하는 연구가 진행되었습니다. 이 논문은 LLM의 제한된 토큰 용량과 LLM에서 생성된 설명의 도메인 구체성 부족 문제를 해결하기 위해, 큐레이션된 병리학 교과서와 에이전트 전문화를 활용하여 정확하고 다양한 임상 설명을 생성하는 다중 에이전트 설명 생성 시스템과 시각적 특징과의 더 나은 정렬을 위해 단일 프롬프트 대신 설명 목록을 사용하는 텍스트 인코딩 전략을 제안합니다. 이 접근 방식은 신장 및 폐암 데이터셋에서 단일 프롬프트 클래스 기반 모델보다 향상된 성능을 보이며, 최첨단 모델과 유사한 결과를 달성했습니다.
시사점, 한계점
•
시사점:
◦
다중 에이전트 기반 설명 생성 시스템을 통해 정확하고 다양한 임상 설명 생성.
◦
단일 프롬프트 대신 설명 목록을 활용하여 시각적 특징과의 정렬을 개선.
◦
신장 및 폐암 데이터셋에서 기존 모델 대비 향상된 성능 달성.
•
한계점:
◦
구체적인 한계점은 논문 요약에서 명시적으로 언급되지 않음. (논문의 추가적인 내용을 확인해야 함)