Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

RotBench: Đánh giá các mô hình ngôn ngữ lớn đa phương thức trong việc xác định độ xoay hình ảnh

Created by
  • Haebom

Tác giả

Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal

Phác thảo

Bài báo này nghiên cứu mức độ chính xác của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) trong việc xác định hướng của hình ảnh xoay ở nhiều góc độ khác nhau (0°, 90°, 180° và 270°). Để đạt được điều này, chúng tôi trình bày RotBench, một chuẩn mực được lọc thủ công gồm 350 hình ảnh bao gồm hình ảnh về phong cách sống, chân dung và phong cảnh. Chúng tôi đánh giá các MLLM mở và độc quyền tiên tiến, bao gồm GPT-5, o3 và Gemini-2.5-Pro, và chứng minh rằng chúng không thể xác định được độ xoay của hình ảnh một cách đáng tin cậy. Việc cung cấp thêm thông tin, chẳng hạn như chú thích hoặc bản đồ độ sâu hoặc gợi ý chuỗi suy nghĩ chỉ cải thiện hiệu suất một chút. Hầu hết các mô hình có thể xác định hình ảnh 0° và một số có thể xác định hình ảnh 180°, nhưng chúng không thể phân biệt giữa 90° và 270°. Việc trình bày đồng thời hình ảnh theo nhiều hướng khác nhau và sử dụng các phương pháp bỏ phiếu đã cải thiện hiệu suất. Tuy nhiên, việc tinh chỉnh cải thiện khả năng nhận dạng hình ảnh 180° nhưng không cải thiện khả năng phân biệt 90° và 270°. Tóm lại, chúng tôi chỉ ra rằng có một khoảng cách đáng kể giữa khả năng suy luận không gian của MLLM và khả năng nhận thức của con người.

Takeaways, Limitations

Takeaways: Minh họa rõ ràng những hạn chế về khả năng suy luận không gian của MLLM, đặc biệt là khả năng nhận dạng xoay hình ảnh. Cung cấp cái nhìn sâu sắc về hiệu quả của việc cung cấp thông tin bổ sung hoặc kỹ thuật nhanh chóng. Đề xuất các chiến lược nâng cao hiệu suất, chẳng hạn như hiển thị hình ảnh xoay theo các hướng khác nhau cùng lúc hoặc sử dụng cơ chế bỏ phiếu.
Limitations: Thang đo của RotBench tương đối nhỏ. Loại MLLM được sử dụng để đánh giá có thể bị hạn chế. Có khả năng sai lệch đối với một số loại hình ảnh nhất định. Cần nghiên cứu thêm để phân biệt giữa hình ảnh xoay 90° và 270°.
👍