본 논문은 음식 조리 작업 계획을 위한 맥락 내 학습을 사용하는 다중 모달 대규모 언어 모델(MLLM)을 연구합니다. 두 가지 주요 과제인 교차 모달 방해 및 기하학적 실행 가능성을 확인하고, 교차 모달 방해로 인한 추론 손실을 완화하기 위해 사고의 연쇄(CoT)와 자기 일관성을 적용하고, 기술 전제 조건으로서 여유 공간 예측기를 사용하여 MLLM의 기하학적 실행 가능성을 안내하는 방법을 제시합니다. 수량 추정, 도달 가능성 분석, 상대적 위치 지정 및 충돌 회피 능력을 평가하기 위한 데이터 세트를 구성하고, 다양한 기준을 비교 평가하여 개선 이유를 분석하고 각 접근 방식에 대한 통찰력을 제공합니다. 제안된 방법은 전체 데이터 세트에서 76.7%의 성공률에 도달하여 CoT 기준(36.7%)에 비해 상당한 향상을 보입니다.