본 논문은 시각 및 텍스트 모달리티를 결합하여 식품 인식의 정확도와 강건성을 향상시키는 새로운 다모달 식품 인식 프레임워크를 제시합니다. 제안된 접근 방식은 단일 모달 시각 입력과 상호 보완적인 텍스트 메타데이터의 특징을 적응적으로 통합하는 동적 다모달 융합 전략을 사용합니다. 이 융합 메커니즘은 누락되거나 일관성 없는 모달리티 데이터의 부정적 영향을 완화하면서 정보 콘텐츠의 활용을 극대화하도록 설계되었습니다. UPMC Food-101 데이터셋에서 엄격한 평가를 거친 결과, 이미지에 대한 단일 모달 분류 정확도는 73.60%, 텍스트에 대한 정확도는 88.84%를 달성했습니다. 두 모달리티를 융합했을 때 모델은 97.84%의 정확도를 달성하여 여러 최첨단 방법을 능가했습니다. 광범위한 실험 분석을 통해 제안된 설정의 강건성, 적응성 및 계산 효율성을 입증하여 실제 다모달 식품 인식 시나리오에 대한 실용적인 적용 가능성을 강조했습니다.