본 연구는 의료 진단 영상의 정확한 분류를 위해 설계된 다중 모달 AI 프레임워크를 제시합니다. 공개적으로 이용 가능한 데이터셋을 사용하여, 제안된 시스템은 합성곱 신경망(CNN)과 다양한 대규모 언어 모델(LLM)의 강점을 비교합니다. 이 심층적인 비교 분석은 진단 성능, 실행 효율성 및 환경적 영향의 주요 차이점을 강조합니다. 모델 평가는 정확도, F1 점수, 평균 실행 시간, 평균 에너지 소비 및 추정된 이산화탄소 배출량을 기반으로 했습니다. 연구 결과는 CNN 기반 모델이 이미지와 문맥 정보를 모두 통합하는 다양한 다중 모달 기법보다 성능이 우수할 수 있지만, LLM에 추가적인 필터링을 적용하면 상당한 성능 향상을 가져올 수 있음을 나타냅니다. 이러한 결과는 다중 모달 AI 시스템이 임상 환경에서 의료 진단의 신뢰성, 효율성 및 확장성을 향상시킬 수 있는 혁신적인 잠재력을 강조합니다.