Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Are Vision-Language Models Ready for Dietary Assessment? Exploring the Next Frontier in AI-Powered Food Image Recognition

Created by
  • Haebom

저자

Sergio Romero-Tapiador, Ruben Tolosana, Blanca Lacruz-Pleguezuelos, Laura Judith Marcos Zambrano, Guadalupe X. Bazan, Isabel Espinosa-Salinas, Julian Fierrez, Javier Ortega-Garcia, Enrique Carrillo de Santa Pau, Aythami Morales

개요

본 논문은 식품 이미지 기반 자동 식단 평가의 어려움을 해결하기 위해 비전-언어 모델(VLMs)을 활용한 연구를 제시합니다. 6가지 최첨단 VLMs (ChatGPT, Gemini, Claude, Moondream, DeepSeek, LLaVA)의 식품 인식 능력을 평가하기 위해, 9,263개의 전문가 라벨링 이미지를 포함하는 새로운 식품 이미지 데이터베이스 FoodNExTDB를 구축했습니다. FoodNExTDB는 10개의 카테고리, 62개의 하위 카테고리, 9가지 조리법을 포함하며, 5만개의 영양 정보 라벨이 수동으로 주석되었습니다. 전문가 간의 차이를 고려한 새로운 평가 지표인 Expert-Weighted Recall (EWR)을 제안하여 모델 성능을 평가하였습니다. 실험 결과, 폐쇄형 모델이 오픈소스 모델보다 성능이 우수하며, 단일 식품 이미지에서는 90% 이상의 EWR을 달성했습니다. 하지만 세부적인 조리법이나 유사한 식품의 구분에는 어려움을 보여, 자동 식단 평가의 신뢰성 확보에는 한계가 있음을 보였습니다. FoodNExTDB 데이터베이스는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
VLMs를 활용한 자동 식단 평가 가능성을 제시.
새로운 식품 이미지 데이터베이스 FoodNExTDB 공개.
전문가 간의 차이를 고려한 새로운 평가 지표 EWR 제안.
폐쇄형 VLMs의 우수한 성능 확인 (단일 식품 이미지 기준).
한계점:
세부적인 조리법 및 유사 식품 구분의 어려움.
자동 식단 평가의 신뢰성 확보에 대한 한계 제시.
현재 VLMs의 정확도는 단일 식품 이미지에 국한됨.
👍