본 연구는 요리 과정의 단계별 안내를 생성하는 시스템을 개발하기 위해 YOLOv8 분할 모델, 손 동작 시퀀스로 훈련된 LSTM 모델, 그리고 ASR(whisper-base)을 결합하여 LLM(TinyLLaMa)에 대한 충분한 데이터를 추출하는 방법을 탐구합니다. 저자에 의해 수집된 데이터를 사용하여 복잡하고 어려운 환경에서 최상의 성능을 발휘하는 강력한 작업 특화 시스템을 구축하여 일상 활동(예: 요리)에 컴퓨터 비전의 확장성과 무한한 응용 가능성을 증명합니다. 이 연구는 일상 생활의 더 많은 중요한 작업으로 영역을 확장합니다.