본 연구는 의료 진단 이미지의 정확한 분류를 위해 설계된 다중 모달 AI 프레임워크를 제시한다. 공개적으로 이용 가능한 데이터셋을 사용하여, 제안된 시스템은 합성곱 신경망(CNN)과 다양한 대규모 언어 모델(LLM)의 강점을 비교한다. 이 심층적인 비교 분석은 진단 성능, 실행 효율성 및 환경적 영향의 주요 차이점을 강조한다. 모델 평가는 정확도, F1 점수, 평균 실행 시간, 평균 에너지 소비 및 추정된 $CO_2$ 배출량을 기반으로 했다. 연구 결과는 CNN 기반 모델이 이미지와 상황 정보를 모두 통합하는 다양한 다중 모달 기법보다 성능이 뛰어날 수 있지만, LLM에 추가 필터링을 적용하면 성능이 크게 향상될 수 있음을 나타낸다. 이러한 결과는 다중 모달 AI 시스템이 임상 환경에서 의료 진단의 신뢰성, 효율성 및 확장성을 향상시키는 데 혁신적인 잠재력을 가지고 있음을 강조한다.