의료 영상과 임상적 맥락의 통합은 정확하고 임상적으로 해석 가능한 방사선 보고서를 생성하는 데 필수적입니다. 하지만 현재 자동화된 방법은 리소스가 많이 소모되는 대규모 언어 모델(LLM)이나 정적 지식 그래프에 의존하며, 실제 임상 데이터의 두 가지 근본적인 문제점에 직면합니다: (1) 누락된 모달리티(예: 불완전한 임상적 맥락)와 (2) 특징 얽힘(혼합 모달리티별 및 공유 정보가 최적화되지 않은 융합과 임상적으로 신뢰할 수 없는 환각적 결과를 초래). 이러한 문제를 해결하기 위해 DiA-gnostic VLVAE를 제안하며, 이는 Disentangled Alignment를 통해 견고한 방사선 보고를 달성합니다. 이 프레임워크는 Mixture-of-Experts (MoE) 기반 Vision-Language Variational Autoencoder (VLVAE)를 사용하여 공유 및 모달리티별 특징을 분리함으로써 누락된 모달리티에 대한 복원력을 갖도록 설계되었습니다. 제약된 최적화 목표는 이러한 잠재적 표현 간의 직교성과 정렬을 적용하여 최적화되지 않은 융합을 방지합니다. 그런 다음 소형 LLaMA-X 디코더는 이러한 분리된 표현을 사용하여 효율적으로 보고서를 생성합니다. IU X-Ray 및 MIMIC-CXR 데이터 세트에서 DiA는 각각 0.266 및 0.134의 경쟁력 있는 BLEU@4 점수를 달성했습니다. 실험 결과는 제안된 방법이 최첨단 모델보다 월등히 뛰어남을 보여줍니다.