Bài báo này nhấn mạnh tầm quan trọng của việc dự đoán chuyển động ngắn hạn của người dùng đường bộ dễ bị tổn thương (VRU) đối với sự an toàn của xe tự hành, đặc biệt là trong môi trường đô thị, nơi các hành vi mơ hồ hoặc nguy hiểm phổ biến. Mặc dù các mô hình ngôn ngữ thị giác (VLM) hiện có cho phép nhận dạng từ vựng mở, nhưng việc ứng dụng chúng vào suy luận ý định chi tiết vẫn là một lĩnh vực chưa được khám phá. Để giải quyết khoảng trống này, bài báo này trình bày DRAMA-X, một chuẩn mực chi tiết được tạo thông qua một quy trình chú thích tự động dựa trên tập dữ liệu DRAMA. DRAMA-X bao gồm các hộp giới hạn đối tượng, phân loại ý định chín hướng, điểm rủi ro nhị phân, đề xuất hành động tự động do chuyên gia tạo ra và tóm tắt chuyển động mô tả cho 5.686 khung rủi ro tai nạn. Các chú thích này cho phép đánh giá có cấu trúc bốn nhiệm vụ liên quan (phát hiện đối tượng, dự đoán ý định, đánh giá rủi ro và đề xuất hành động) đóng vai trò trung tâm trong việc ra quyết định lái xe tự hành. Là một cơ sở, bài báo này đề xuất SGG-Intent, một khuôn khổ nhẹ, không cần đào tạo, phản ánh quy trình suy luận của xe tự hành. SGG-Intent tuần tự tạo đồ thị cảnh từ dữ liệu đầu vào trực quan bằng bộ phát hiện dựa trên VLM, suy ra ý định, đánh giá rủi ro và đề xuất hành động bằng bước suy luận hợp thành dựa trên mô hình ngôn ngữ quy mô lớn. Chúng tôi đánh giá nhiều VLM tiên tiến và so sánh hiệu suất của chúng qua bốn tác vụ trong DRAMA-X. Kết quả thử nghiệm chứng minh rằng suy luận dựa trên đồ thị cảnh cải thiện khả năng dự đoán ý định và đánh giá rủi ro, đặc biệt là khi các tín hiệu ngữ cảnh được mô hình hóa rõ ràng.