Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HoneyBee: A Scalable Modular Framework for Creating Multimodal Oncology Datasets with Foundational Embedding Models

Created by
  • Haebom

저자

Aakash Tripathi, Asim Waqas, Matthew B. Schabath, Yasin Yilmaz, Ghulam Rasool

개요

HONeYBEE는 종양학 응용을 위한 다중 모달 생의학 데이터 통합 오픈소스 프레임워크입니다. 구조화 및 비구조화 임상 데이터, 전체 슬라이드 이미지, 영상의학 스캔 및 분자 프로필을 처리하여 도메인 특정 기본 모델 및 융합 전략을 사용하여 통합된 환자 수준 임베딩을 생성합니다. 이러한 임베딩은 생존 예측, 암 유형 분류, 환자 유사성 검색 및 코호트 클러스터링을 가능하게 합니다. TCGA의 33가지 암 유형에 걸쳐 11,400명 이상의 환자를 대상으로 평가한 결과, 임상 임베딩은 98.5%의 분류 정확도와 환자 검색에서 96.4%의 정밀도@10으로 가장 강력한 단일 모달 성능을 보였습니다. 또한 대부분의 암 유형에서 가장 높은 생존 예측 일치 지수를 달성했습니다. 다중 모달 융합은 특정 암에 대해 상호 보완적인 이점을 제공하여 임상 특징만으로는 달성할 수 없는 전반적인 생존 예측을 향상시켰습니다. 4가지 대규모 언어 모델에 대한 비교 평가 결과, Qwen3과 같은 범용 모델이 병리 보고서와 같은 이기종 데이터에 대한 작업 특정 미세 조정 성능을 향상시켰지만, 임상 텍스트 표현에는 전문 의료 모델보다 성능이 우수한 것으로 나타났습니다.

시사점, 한계점

시사점: 다양한 의료 데이터 모달리티를 통합하여 종양학 연구 및 예측 성능을 향상시킬 수 있는 효과적인 프레임워크를 제시. 특히 임상 데이터 기반 임베딩의 우수한 성능 확인. 다중 모달 융합을 통한 생존 예측 개선 가능성 제시. 범용 LLM의 의료 데이터 처리 성능 확인.
한계점: TCGA 데이터셋에 대한 의존도. 다른 데이터셋으로의 일반화 가능성 검증 필요. 특정 암 유형에 대한 다중 모달 융합의 효과가 제한적일 수 있음. 모델의 해석 가능성 및 설명력에 대한 추가 연구 필요.
👍