본 논문은 식품 이미지 기반 자동 식단 평가의 어려움을 해결하기 위해 비전-언어 모델(VLMs)을 활용한 연구를 제시합니다. 6가지 최첨단 VLMs (ChatGPT, Gemini, Claude, Moondream, DeepSeek, LLaVA)의 식품 인식 능력을 평가하기 위해, 9,263개의 전문가 라벨링 이미지를 포함하는 새로운 식품 이미지 데이터베이스 FoodNExTDB를 구축했습니다. FoodNExTDB는 10개의 카테고리, 62개의 하위 카테고리, 9가지 조리법을 포함하며, 5만개의 영양 정보 라벨이 수동으로 주석되었습니다. 전문가 간의 차이를 고려한 새로운 평가 지표인 Expert-Weighted Recall (EWR)을 제안하여 모델 성능을 평가하였습니다. 실험 결과, 폐쇄형 모델이 오픈소스 모델보다 성능이 우수하며, 단일 식품 이미지에서는 90% 이상의 EWR을 달성했습니다. 하지만 세부적인 조리법이나 유사한 식품의 구분에는 어려움을 보여, 자동 식단 평가의 신뢰성 확보에는 한계가 있음을 보였습니다. FoodNExTDB 데이터베이스는 공개적으로 제공됩니다.