Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

GPT-4o hiểu thị giác tốt đến mức nào? Đánh giá các mô hình nền tảng đa phương thức trên các tác vụ thị giác máy tính tiêu chuẩn

Created by
  • Haebom

Tác giả

Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, O\u{g}uzhan Fatih Kar, Amir Zamir

Phác thảo

Bài báo này đánh giá hiệu suất của các mô hình đa phương thức phổ biến như GPT-4o, o4-mini, Gemini 1.5 Pro, Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL và Llama 3.2 trên các tác vụ thị giác máy tính (phân tích ngữ nghĩa phân đoạn, phát hiện đối tượng, phân loại hình ảnh và dự đoán pháp tuyến bề mặt và độ sâu) bằng cách sử dụng các tập dữ liệu chuẩn như COCO và ImageNet. Chúng tôi khắc phục những khó khăn mà các mô hình ban đầu được tối ưu hóa cho đầu ra văn bản và một số chỉ có thể truy cập thông qua API bằng cách sử dụng chuỗi nhắc để xây dựng một khuôn khổ đánh giá chuẩn hóa. Kết quả là, mặc dù các mô hình này không bằng các mô hình thị giác máy tính chuyên nghiệp, nhưng chúng cho thấy khả năng khái quát hóa đáng kể mặc dù được đào tạo chủ yếu trên hình ảnh-văn bản và thực hiện tốt hơn trên các tác vụ ngữ nghĩa so với các tác vụ hình học. GPT-4o thực hiện tốt nhất trong số các mô hình không suy luận và các mô hình suy luận cho thấy hiệu suất được cải thiện trên các tác vụ hình học. Tuy nhiên, các mô hình có khả năng tạo hình ảnh như GPT-4o lại gặp các vấn đề như ảo giác và sai lệch không gian.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng các mô hình dựa trên đa phương thức thể hiện khả năng khái quát đáng kể đối với các tác vụ thị giác máy tính chỉ với việc học dựa trên hình ảnh-văn bản.
Chúng tôi trình bày khả năng áp dụng các mô hình đa phương thức vào các tác vụ thị giác máy tính thông qua kỹ thuật nhanh chóng.
Đề Xuất hướng phát triển mô hình trong tương lai bằng cách phân tích sự khác biệt về hiệu suất và điểm mạnh/điểm yếu của các mô hình (ví dụ: cải thiện hiệu suất nhiệm vụ hình học, giải quyết ảo giác và lỗi không gian).
Trình bày chuẩn mực về hiệu suất thị giác máy tính của các mô hình đa phương thức tiên tiến bao gồm GPT-4o.
Limitations:
Không phải tất cả các mô hình được sử dụng để đánh giá chuẩn đều là mô hình mới nhất và một số chỉ có thể truy cập thông qua API, điều này hạn chế việc đánh giá hiệu suất.
Vì kỹ thuật nối chuỗi nhanh ảnh hưởng đến hiệu suất của mô hình nên cần thận trọng khi diễn giải kết quả.
Các vấn đề về ảo giác và sai lệch không gian trong các mô hình có khả năng tạo hình ảnh cần được nghiên cứu thêm.
Chỉ có một số lượng hạn chế các nhiệm vụ được đánh giá, thay vì đánh giá toàn diện nhiều nhiệm vụ về thị giác máy tính.
👍