Bài báo này đề xuất CCL-LGS, một khuôn khổ mới cho việc hiểu ngữ nghĩa 3D. Nhằm giải quyết những thách thức mà các phương pháp dựa trên tiên nghiệm 2D hiện có đang gặp phải, vốn gặp phải tình trạng không nhất quán ngữ nghĩa giữa các góc nhìn do che khuất, làm mờ ảnh và các biến thể phụ thuộc vào góc nhìn, chúng tôi đề xuất một phương pháp tăng cường giám sát ngữ nghĩa nhất quán giữa các góc nhìn bằng cách kết hợp các tín hiệu ngữ nghĩa đa góc nhìn. Cụ thể, chúng tôi căn chỉnh các mặt nạ 2D do SAM tạo ra bằng cách sử dụng bộ theo dõi zero-shot, trích xuất các mã hóa ngữ nghĩa mạnh mẽ bằng CLIP và trích xuất các đặc điểm ngữ nghĩa phân biệt bằng cách tăng cường tính chặt chẽ trong lớp và tính khác biệt giữa các lớp thông qua mô-đun Học tập Sổ mã Tương phản (CCL). Không giống như các phương pháp hiện có, CCL-LGS giải quyết rõ ràng các xung đột ngữ nghĩa trong khi vẫn duy trì khả năng phân biệt phạm trù, thay vì áp dụng trực tiếp CLIP cho các mặt nạ chưa hoàn chỉnh. Kết quả thử nghiệm chứng minh rằng CCL-LGS vượt trội hơn các phương pháp tiên tiến hiện có.