Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CountingFruit: Đếm trái cây 3D theo hướng dẫn ngôn ngữ với phương pháp phân tích Gauss ngữ nghĩa

Created by
  • Haebom

Tác giả

Fengze Li, Yangle Liu, Jieming Ma, Hai-Ning Liang, Yaochun Shen, Huangxiang Li, Zhijing Wu

Phác thảo

FruitLangGS là một khung đếm trái cây 3D hướng ngôn ngữ, sử dụng đường ống phân tán Gauss dày đặc thích ứng với chức năng cắt tỉa theo bán kính và raster hóa dựa trên ô để tái tạo các cảnh quy mô vườn cây ăn quả. Không giống như các đường ống hiện có dựa trên phân đoạn 2D đa góc nhìn và lấy mẫu thể tích dày đặc, FruitLangGS lọc các vectơ ngữ nghĩa được căn chỉnh theo CLIP nén chứa trong mỗi Gauss thông qua cơ chế tương đồng cosin ngưỡng kép để lấy các Gauss liên quan đến dấu nhắc mục tiêu mà không cần đào tạo lại hoặc mặt nạ không gian ảnh, loại bỏ các yếu tố gây nhiễu phổ biến (ví dụ: lá). Các Gauss được chọn được lấy mẫu từ một đám mây điểm dày đặc và được phân cụm theo hình học để ước tính các trường hợp trái cây, và có khả năng chống chịu được các biến động nghiêm trọng về che khuất và góc nhìn. Các thử nghiệm trên chín tập dữ liệu quy mô vườn cây ăn quả khác nhau chứng minh rằng FruitLangGS luôn vượt trội hơn các quy trình hiện có về khả năng thu hồi số lượng cá thể, tránh được lỗi hợp nhất phân đoạn đa chế độ xem và đạt được khả năng thu hồi lên đến 99,7% trên tập dữ liệu vườn cây ăn quả Pfuji-Size_Orch2018. Các nghiên cứu cắt bỏ bổ sung xác nhận rằng nhúng ngữ nghĩa có điều kiện ngôn ngữ và lọc nhắc nhở ngưỡng kép là rất cần thiết để loại bỏ các yếu tố gây nhiễu và cải thiện độ chính xác của việc đếm trong điều kiện che khuất nghiêm trọng. Ngoài việc đếm quả, cùng một khuôn khổ cho phép truy xuất ngữ nghĩa 3D dựa trên nhắc nhở mà không cần đào tạo lại, làm nổi bật tiềm năng của nhận dạng 3D hướng dẫn ngôn ngữ cho việc hiểu biết về bối cảnh nông nghiệp có thể mở rộng.

Takeaways, Limitations

Takeaways:
Một giải pháp hiệu quả và chính xác cho vấn đề đếm quả 3D trong vườn cây ăn quả.
Chúng tôi trình bày một phương pháp mới để tránh lỗi hợp nhất nhiều chế độ xem và giảm chi phí tính toán.
Cho phép truy xuất ngữ nghĩa 3D dựa trên lời nhắc thông qua quy nạp ngôn ngữ.
Duy trì độ chính xác cao ngay cả trong tình huống tắc nghẽn nghiêm trọng.
Trình bày những khả năng mới để hiểu được bối cảnh nông nghiệp có thể mở rộng.
Limitations:
Cần nghiên cứu thêm về hiệu suất tổng quát vì đánh giá hiệu suất có xu hướng thiên về một tập dữ liệu vườn cây ăn quả cụ thể.
Cần phải xác minh khả năng áp dụng cho nhiều loại trái cây và môi trường vườn cây ăn quả khác nhau.
Những hạn chế của mô hình CLIP do phụ thuộc vào mô hình CLIP cũng có thể ảnh hưởng đến FruitLangGS.
Cần cân nhắc thêm về độ phức tạp tính toán của các phương pháp tái tạo 3D dựa trên phân bố Gauss.
👍