FastFood라는 새로운 데이터셋과 VIF$^2$ (Visual-Ingredient Feature Fusion)라는 새로운 모델-애그노스틱 방법론을 제시합니다. FastFood 데이터셋은 908개의 패스트푸드 카테고리에 걸쳐 84,446개의 이미지와 재료 및 영양 정보를 포함합니다. VIF$^2$ 방법론은 시각적 특징과 재료 특징을 통합하여 영양 추정 성능을 향상시키며, 동의어 대체 및 재샘플링 전략을 통해 재료에 대한 강건성을 개선합니다. 다양한 백본(ResNet, InceptionV3, ViT 등)을 사용한 실험을 통해 FastFood 및 Nutrition5k 데이터셋에서 제안된 방법의 효과를 검증하고, 영양 추정에서 재료 정보의 중요성을 보여줍니다.