Bài báo này đề xuất Bộ chuyển đổi tương tác đa phương thức (MM-ITF), một mô hình cho phép robot dự đoán các vật thể mục tiêu dựa trên cử chỉ trỏ của con người trong tương tác người-robot (HRI). MM-ITF ánh xạ các cử chỉ trỏ 2D đến các vị trí vật thể và gán điểm khả năng xảy ra cho mỗi vị trí để xác định mục tiêu có khả năng xảy ra cao nhất. Các thí nghiệm đã được tiến hành với robot NICOL trong môi trường bàn được kiểm soát bằng dữ liệu RGB đơn sắc, chứng minh kết quả dự đoán vật thể mục tiêu chính xác. Một ma trận nhầm lẫn vá đã được giới thiệu để đánh giá hiệu suất của mô hình. Mã nguồn có sẵn trên GitHub.