Bài báo này nhằm mục đích phát triển một biểu diễn đồ thị cảnh 3D xác định vị trí và cách sử dụng các yếu tố tương tác chức năng, cho phép robot tương tác trực tiếp với môi trường của chúng. Thay vì dựa vào độ phân giải cấp đối tượng truyền thống, chúng tôi tập trung vào việc phát hiện và lưu trữ các đối tượng ở độ phân giải tốt hơn, tập trung vào ý nghĩa chức năng của chúng. Để giải quyết tình trạng khan hiếm dữ liệu và những thách thức trong việc nắm bắt các đặc điểm chi tiết của đối tượng bằng cảm biến robot, chúng tôi tận dụng các nguồn lực 3D hiện có để tạo dữ liệu 2D và huấn luyện các bộ phát hiện, cải tiến quy trình tạo đồ thị cảnh 3D tiêu chuẩn. Kết quả thử nghiệm chứng minh rằng phương pháp của chúng tôi đạt được hiệu suất phân đoạn phần tử chức năng tương đương với các mô hình 3D tiên tiến và cho phép liên kết ngữ nghĩa chức năng theo tác vụ với độ chính xác cao hơn so với các giải pháp hiện có.