Bài báo này đề cập đến những thách thức của các mô hình ngôn ngữ thị giác (VLM) trong việc hiểu và tuân theo các lệnh lắp ráp đa phương thức, đặc biệt là khi cần suy luận không gian phức tạp và phát hiện trạng thái đối tượng chính xác. Chúng tôi trình bày LEGO Co-builder, một chuẩn mực kết hợp giữa logic lắp ráp LEGO trong thế giới thực với các cảnh đa phương thức được tạo theo chương trình. Bộ dữ liệu này ghi lại các trạng thái thị giác từng bước và các lệnh thủ tục, cho phép đánh giá có kiểm soát việc tuân theo lệnh, phát hiện đối tượng và phát hiện trạng thái. Các VLM hàng đầu như GPT-4o, Gemini và Qwen-VL được đánh giá dựa trên khuôn khổ thống nhất của chúng tôi trong các cài đặt zero-shot và tinh chỉnh. Kết quả cho thấy ngay cả các mô hình tiên tiến như GPT-4o cũng gặp khó khăn với các tác vụ lắp ráp phức tạp, với điểm F1 tối đa chỉ 40,54% cho việc phát hiện trạng thái, cho thấy một khoảng cách trong khả năng hiểu thị giác phức tạp. Để hỗ trợ nghiên cứu hỗ trợ lắp ráp đa phương thức trong tương lai, chúng tôi công khai chuẩn mực, cơ sở mã và quy trình tạo.