Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Vượt ra ngoài hình ảnh: Sự kết hợp thích ứng của dữ liệu hình ảnh và văn bản để phân loại thực phẩm

Created by
  • Haebom

Tác giả

Prateek Mittal, Puneet Goyal, Joohi Chauhan

Phác thảo

Bài báo này trình bày một khuôn khổ nhận dạng thực phẩm đa phương thức mới, kết hợp các phương thức trực quan và văn bản để cải thiện độ chính xác và độ tin cậy của nhận dạng thực phẩm. Phương pháp đề xuất sử dụng chiến lược hợp nhất đa phương thức động, tích hợp một cách thích ứng các đặc điểm từ dữ liệu trực quan đơn phương thức và siêu dữ liệu văn bản bổ sung. Cơ chế hợp nhất này được thiết kế để tối đa hóa việc sử dụng nội dung thông tin đồng thời giảm thiểu tác động tiêu cực của dữ liệu phương thức bị thiếu hoặc không nhất quán. Đánh giá nghiêm ngặt trên tập dữ liệu UPMC Food-101 cho thấy độ chính xác phân loại đơn phương thức là 73,60% đối với hình ảnh và 88,84% đối với văn bản. Khi hợp nhất trên cả hai phương thức, mô hình đạt độ chính xác 97,84%, vượt trội hơn một số phương pháp tiên tiến. Phân tích thử nghiệm mở rộng chứng minh tính tin cậy, khả năng thích ứng và hiệu quả tính toán của thiết lập được đề xuất, làm nổi bật khả năng ứng dụng thực tế của nó cho các tình huống nhận dạng thực phẩm đa phương thức trong thế giới thực.

Takeaways, Limitations

Takeaways:
Cải thiện độ chính xác khi nhận dạng thực phẩm (97,84%) thông qua sự kết hợp hiệu quả giữa hình ảnh và phương thức văn bản.
Khả năng chống lại dữ liệu bị thiếu hoặc không nhất quán.
Bằng chứng về hiệu quả và khả năng thích ứng của chiến lược hợp nhất đa phương thức năng động.
Trình bày các khả năng ứng dụng thực tế.
Limitations:
ĐáNh giá chỉ được thực hiện trên tập dữ liệu UPMC Food-101, do đó cần xác nhận thêm khả năng khái quát hóa.
Cần nghiên cứu thêm để xác định xem các thiết lập được tối ưu hóa cho một tập dữ liệu cụ thể có thể đảm bảo hiệu suất tương tự trên các tập dữ liệu khác hay không.
Cần phải đánh giá hiệu suất tổng quát cho nhiều loại siêu dữ liệu văn bản khác nhau.
👍