Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Images: Adaptive Fusion of Visual and Textual Data for Food Classification

작성자
  • Haebom

저자

Prateek Mittal, Puneet Goyal, Joohi Chauhan

개요

본 논문은 시각 및 텍스트 모달리티를 결합하여 식품 인식의 정확도와 강건성을 향상시키는 새로운 다모달 식품 인식 프레임워크를 제시합니다. 제안된 접근 방식은 단일 모달 시각 입력과 상호 보완적인 텍스트 메타데이터의 특징을 적응적으로 통합하는 동적 다모달 융합 전략을 사용합니다. 이 융합 메커니즘은 누락되거나 일관성 없는 모달리티 데이터의 부정적 영향을 완화하면서 정보 콘텐츠의 활용을 극대화하도록 설계되었습니다. UPMC Food-101 데이터셋에서 엄격한 평가를 거친 결과, 이미지에 대한 단일 모달 분류 정확도는 73.60%, 텍스트에 대한 정확도는 88.84%를 달성했습니다. 두 모달리티를 융합했을 때 모델은 97.84%의 정확도를 달성하여 여러 최첨단 방법을 능가했습니다. 광범위한 실험 분석을 통해 제안된 설정의 강건성, 적응성 및 계산 효율성을 입증하여 실제 다모달 식품 인식 시나리오에 대한 실용적인 적용 가능성을 강조했습니다.

시사점, 한계점

시사점:
시각 및 텍스트 모달리티의 효과적인 융합을 통한 식품 인식 정확도 향상 (97.84% 달성).
누락되거나 일관성 없는 데이터에 대한 강건성 확보.
동적 다모달 융합 전략의 효율성 및 적응성 증명.
실제 응용 가능성 제시.
한계점:
UPMC Food-101 데이터셋에 대한 평가만 수행되어 일반화 가능성에 대한 추가 검증 필요.
특정 데이터셋에 최적화된 설정이 다른 데이터셋에서도 동일한 성능을 보장할 수 있는지에 대한 추가 연구 필요.
다양한 유형의 텍스트 메타데이터에 대한 일반화 성능 평가 필요.
👍