每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

深度学习驱动的烹饪物体多模态检测和运动分析

Created by
  • Haebom

作者

塔霍辛·阿拉姆·伊沙特、穆罕默德·阿卜杜勒·卡尤姆

大纲

本研究探索如何为 LLM(TinyLLaMa)提取充足的数据,结合 YOLOv8 分割模型、基于手势序列训练的 LSTM 模型和基于 whisper 的 ASR 模型,开发一个能够生成烹饪过程分步说明的系统。利用作者收集的数据,我们构建了一个强大的、针对特定任务的系统,该系统在复杂且具有挑战性的环境中表现良好,展现了计算机视觉在烹饪等日常活动中的可扩展性和无限适用性。这项研究将范围扩展到日常生活中许多更重要的任务。

Takeaways, Limitations

Takeaways:
一种开发逐步指导烹饪过程的系统的新方法。
展示了将计算机视觉技术应用于日常烹饪活动的潜力。
集成各种模型(YOLOv8、LSTM、ASR、LLM)来执行复杂任务。
通过开发特定任务的系统来提高复杂和具有挑战性的环境中的性能。
Limitations:
数据收集由作者进行,因此有必要验证其普遍性。
针对特定环境优化的系统在其他环境中可能性能不佳。
缺乏对模型性能和准确性的定量评估。
系统的可扩展性和通用性还有待进一步研究。
👍