この研究では、調理プロセスの段階的なガイダンスを生成するためのシステムを開発するために、YOLOv8分割モデル、手操作シーケンスで訓練されたLSTMモデル、およびASR(whisper-base)を組み合わせてLLM(TinyLLaMa)に関する十分なデータを抽出する方法を探ります。著者によって収集されたデータを使用して、複雑で困難な環境で最高のパフォーマンスを発揮する強力なタスク特化システムを構築し、日常の活動(料理など)にコンピュータビジョンのスケーラビリティと無限の応用性を証明します。この研究は、日常生活のより重要な作業に領域を拡張します。