Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Liệu các mô hình đa phương thức lớn có thể hiểu được bối cảnh nông nghiệp? So sánh với AgroMind

Created by
  • Haebom

Tác giả

Qingmei Li, Yang Zhang, Zurong Mai, Yuhang Chen, Shuohong Lou, Henglian Huang, Jiarui Zhang, Zhiwei Zhang, Yibin Wen, Weijia Li, Haohuan Fu, Jianxi Huang, Juepeng Zheng

Phác thảo

Bài báo này trình bày AgroMind, một chuẩn mực toàn diện để đánh giá hiệu suất của các mô hình đa phương thức quy mô lớn (LMM) trong viễn thám nông nghiệp (RS). Để khắc phục những hạn chế của các chuẩn mực hiện có, thường thiếu sự đa dạng của tập dữ liệu và thiết kế nhiệm vụ quá đơn giản, AgroMind bao gồm bốn chiều nhiệm vụ và 13 loại nhiệm vụ: nhận thức không gian, hiểu đối tượng, hiểu bối cảnh và suy luận bối cảnh. Bằng cách tích hợp tám tập dữ liệu công khai và một tập dữ liệu đất nông nghiệp riêng tư, chúng tôi đã xây dựng một bộ đánh giá chất lượng cao bao gồm 27.247 cặp QA và 19.615 hình ảnh. Khi đánh giá 20 LMM nguồn mở và bốn mô hình nguồn đóng trên AgroMind, chúng tôi nhận thấy sự khác biệt đáng kể về hiệu suất, đặc biệt là trong suy luận không gian và nhận dạng chi tiết, với một số LMM hiệu suất cao vượt trội hơn hiệu suất của con người. AgroMind cung cấp một khuôn khổ đánh giá chuẩn hóa cho RS nông nghiệp, phơi bày những hạn chế cụ thể của LMM và nêu bật những thách thức quan trọng cho nghiên cứu trong tương lai. Dữ liệu và mã có sẵn tại https://rssysu.github.io/AgroMind/ .

Takeaways, Limitations

Takeaways:
AgroMind đưa ra tiêu chuẩn toàn diện và chuẩn hóa cho công nghệ cảm biến từ xa trong nông nghiệp.
Cung cấp nhiều loại nhiệm vụ khác nhau (nhận thức không gian, hiểu đối tượng, hiểu bối cảnh, suy luận bối cảnh) để đánh giá hiệu suất của LMM.
Những hạn chế của kiến thức chuyên ngành của LMM và hướng nghiên cứu trong tương lai
Một số LMM tạo ra kết quả vượt trội hơn hiệu suất của con người.
Limitations:
Độ Lệch tiềm ẩn trong các tập dữ liệu được đưa vào chuẩn mực (8 tập dữ liệu công khai + 1 tập dữ liệu riêng tư)
Có thể quá phụ thuộc vào các LMM cụ thể (hạn chế của các mô hình cụ thể được sử dụng để đánh giá)
Cần phân tích sâu hơn để hiểu lý do tại sao LMM có hiệu suất kém trong suy luận không gian và nhận dạng chi tiết.
👍