Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Exploration de la reconnaissance de l'état des objets pour le suivi de la progression des recettes dans la cuisine non visuelle

Created by
  • Haebom

Auteur

Franklin Mingzhe Li, Kaitlyn Ng, Bin Zhu, Patrick Carrington

Contour

Dans cet article, nous proposons OSCAR (Object Status Context Awareness for Recipes), une technique de suivi des étapes de cuisson utilisant la reconnaissance des états des objets, dans le but de développer un système d'aide à la cuisson pour les personnes malvoyantes. OSCAR permet le suivi des étapes de cuisson en temps réel en intégrant l'analyse des recettes, l'extraction de l'état des objets, l'alignement visuel avec les étapes de cuisson et la modélisation causale temporelle. Nous évaluons OSCAR à l'aide de 173 vidéos de cuisine et d'un ensemble de données de cuisson réelles enregistrées au domicile de 12 personnes malvoyantes. Nous constatons que la reconnaissance des états des objets améliore la précision de prédiction des étapes d'un modèle de langage visuel. Nous analysons également l'impact de facteurs réels tels que les tâches implicites, le placement de la caméra et l'éclairage sur la performance. Cet article fournit un pipeline de suivi des étapes de cuisson sensible au contexte, un ensemble de données de cuisson non visuelles annotées et réelles, ainsi que des perspectives de conception pour de futurs systèmes d'aide à la cuisson sensibles au contexte.

Takeaways, Limitations

Takeaways:
Présentation d'un nouveau pipeline technologique (OSCAR) pour soutenir les activités de cuisine indépendantes des personnes malvoyantes.
Suggérant la possibilité d'améliorer la précision du suivi du processus de cuisson en utilisant la reconnaissance de l'état des objets.
Création et diffusion d'un ensemble de données de cuisine non visuelles dans des environnements réels.
Analyse de l'impact des conditions environnementales réelles (éclairage, position de la caméra, etc.) sur les performances du système.
Limitations:
La taille de l’ensemble de données expérimentales peut être relativement petite.
Besoin de vérifier les performances de généralisation pour des tâches implicites ou divers environnements de cuisson.
Les évaluations d’utilisabilité à long terme avec des utilisateurs malvoyants réels peuvent faire défaut.
👍