Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities

Created by
  • Haebom
Category
Empty

저자

Nagur Shareef Shaik, Teja Krishna Cherukuri, Adnan Masood, Dong Hye Ye

개요

의료 영상과 임상적 맥락의 통합은 정확하고 임상적으로 해석 가능한 방사선 보고서를 생성하는 데 필수적입니다. 하지만 현재 자동화된 방법은 리소스가 많이 소모되는 대규모 언어 모델(LLM)이나 정적 지식 그래프에 의존하며, 실제 임상 데이터의 두 가지 근본적인 문제점에 직면합니다: (1) 누락된 모달리티(예: 불완전한 임상적 맥락)와 (2) 특징 얽힘(혼합 모달리티별 및 공유 정보가 최적화되지 않은 융합과 임상적으로 신뢰할 수 없는 환각적 결과를 초래). 이러한 문제를 해결하기 위해 DiA-gnostic VLVAE를 제안하며, 이는 Disentangled Alignment를 통해 견고한 방사선 보고를 달성합니다. 이 프레임워크는 Mixture-of-Experts (MoE) 기반 Vision-Language Variational Autoencoder (VLVAE)를 사용하여 공유 및 모달리티별 특징을 분리함으로써 누락된 모달리티에 대한 복원력을 갖도록 설계되었습니다. 제약된 최적화 목표는 이러한 잠재적 표현 간의 직교성과 정렬을 적용하여 최적화되지 않은 융합을 방지합니다. 그런 다음 소형 LLaMA-X 디코더는 이러한 분리된 표현을 사용하여 효율적으로 보고서를 생성합니다. IU X-Ray 및 MIMIC-CXR 데이터 세트에서 DiA는 각각 0.266 및 0.134의 경쟁력 있는 BLEU@4 점수를 달성했습니다. 실험 결과는 제안된 방법이 최첨단 모델보다 월등히 뛰어남을 보여줍니다.

시사점, 한계점

시사점:
누락된 모달리티에 대한 강건성 확보.
특징 얽힘 문제를 해결하여 융합 개선 및 환각적 결과 방지.
경쟁력 있는 성능을 달성했으며, 기존 모델을 능가함.
효율적인 보고서 생성을 위한 소형 디코더 사용.
한계점:
제공된 정보 내에서 한계점은 명시되지 않음.
👍