본 논문은 자연어 처리(NLP)에서 절차적 지식의 효과적인 전달이 어려운 점을 해결하기 위해, 절차적 텍스트를 일관된 시각적 지시사항으로 변환하는 언어 기반 프레임워크를 제안합니다. 이 프레임워크는 지시 내용의 언어적 구조를 목표 진술과 순차적 단계로 분해하여 시각적 생성을 이러한 언어 요소에 조건화합니다. 세 가지 핵심 혁신으로 구성되며, (1) 긴 지시에도 의미적 완전성을 유지하는 구성 성분 분석 기반 텍스트 인코딩 메커니즘, (2) 지시 순서 전반에 걸쳐 일관성을 유지하는 쌍방향 담화 일관성 모델, (3) 절차적 언어-이미지 정렬을 위해 특별히 설계된 새로운 평가 프로토콜을 포함합니다. HTStep, CaptainCook4D, WikiAll 세 가지 지시 데이터셋에 대한 실험 결과, 제안된 방법이 기존 기준 모델보다 지시의 언어적 내용과 순차적 특성을 정확하게 반영하는 시각 자료를 생성하는 데 있어 성능이 훨씬 뛰어남을 보여줍니다. 이 연구는 교육, 작업 안내 및 다중 모드 언어 이해에 걸쳐 응용 가능성을 가진 시각적 내용에 절차적 언어를 접지시키는 연구에 기여합니다.