Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CCL-LGS: Học tập mã tương phản cho ngôn ngữ 3D Gaussian Splatting

Created by
  • Haebom

Tác giả

Lôi Thiên, Xiaomin Li, Liqian Ma, Hao Yin, Zirui Zheng, Hefei Huang, Taiqing Li, Huchuan Lu, Xu Jia

Phác thảo

Bài báo này đề xuất CCL-LGS, một khuôn khổ mới cho việc hiểu ngữ nghĩa 3D. Nhằm giải quyết những thách thức mà các phương pháp dựa trên tiên nghiệm 2D hiện có đang gặp phải, vốn gặp phải tình trạng không nhất quán ngữ nghĩa giữa các góc nhìn do che khuất, làm mờ ảnh và các biến thể phụ thuộc vào góc nhìn, chúng tôi đề xuất một phương pháp tăng cường giám sát ngữ nghĩa nhất quán giữa các góc nhìn bằng cách kết hợp các tín hiệu ngữ nghĩa đa góc nhìn. Cụ thể, chúng tôi căn chỉnh các mặt nạ 2D do SAM tạo ra bằng cách sử dụng bộ theo dõi zero-shot, trích xuất các mã hóa ngữ nghĩa mạnh mẽ bằng CLIP và trích xuất các đặc điểm ngữ nghĩa phân biệt bằng cách tăng cường tính chặt chẽ trong lớp và tính khác biệt giữa các lớp thông qua mô-đun Học tập Sổ mã Tương phản (CCL). Không giống như các phương pháp hiện có, CCL-LGS giải quyết rõ ràng các xung đột ngữ nghĩa trong khi vẫn duy trì khả năng phân biệt phạm trù, thay vì áp dụng trực tiếp CLIP cho các mặt nạ chưa hoàn chỉnh. Kết quả thử nghiệm chứng minh rằng CCL-LGS vượt trội hơn các phương pháp tiên tiến hiện có.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ mới có thể cải thiện độ chính xác của việc hiểu ngữ nghĩa 3D bằng cách tích hợp các tín hiệu ngữ nghĩa đa góc nhìn.
Giải quyết hiệu quả vấn đề mâu thuẫn ngữ nghĩa giữa các chế độ xem bằng cách sử dụng trình theo dõi zero-shot và các mô-đun CLIP và CCL.
Hiệu suất vượt trội đã được kiểm chứng bằng thực nghiệm so với các phương pháp hiện có.
Limitations:
Thiếu phân tích về chi phí tính toán và độ phức tạp của phương pháp đề xuất.
Cần có thêm các thí nghiệm để đánh giá hiệu suất tổng quát trên nhiều môi trường và tập dữ liệu khác nhau.
Có những bộ phận phụ thuộc vào hiệu suất của các mô hình khác như SAM và CLIP.
👍