본 논문은 폐렴 진단을 위한 의료 영상 분석에서 인공지능의 잠재력을 활용하여 진단 정확도를 향상시키는 것을 목표로 합니다. 기존의 다중 모달 접근 방식이 불완전한 데이터 및 모달 손실과 같은 현실적인 문제를 해결하지 못하는 점을 고려하여, 유연한 다중 모달 트랜스포머(FMT)를 제안합니다. FMT는 ResNet-50과 BERT를 사용하여 결합 표현 학습을 수행하고, 동적 마스크 주의 전략을 통해 임상 모달 손실을 시뮬레이션하여 강건성을 향상시킵니다. 마지막으로, 순차적 전문가 혼합(MOE) 아키텍처를 사용하여 다단계 의사결정 개선을 달성합니다. 소규모 다중 모달 폐렴 데이터셋에 대한 평가 결과, FMT는 94%의 정확도, 95%의 재현율, 93%의 F1 점수를 달성하여 최첨단 성능을 보였으며, 단일 모달 기준 모델(ResNet: 89%; BERT: 79%) 및 의료 벤치마크 CheXMed (90%)를 능가했습니다. 이는 자원이 제한된 의료 환경에서 폐렴의 다중 모달 진단을 위한 확장 가능한 솔루션을 제공합니다.