Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CountQA: MLLM có hiệu quả như thế nào trong thực tế?

Created by
  • Haebom

Tác giả

Jayant Sravan Tamarapalli, Rynaa Grover, Nilay Pande, Sahiti Yerramilli

Phác thảo

Bài báo này đề cập đến vấn đề thiếu hụt khả năng đếm đối tượng trong các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Chúng tôi nêu bật những hạn chế của các chuẩn mực hiện có (mật độ đối tượng thấp và vùng thị giác hạn chế) và đề xuất CountQA, một chuẩn mực mới để đánh giá hiệu suất đếm đối tượng của MLLM trong điều kiện thực tế. CountQA bao gồm hơn 1.500 cặp câu hỏi-trả lời chứa các hình ảnh thực tế với mật độ đối tượng, độ nhiễu và độ che khuất cao. Đánh giá 15 MLLM hàng đầu bằng CountQA cho thấy mô hình hiệu suất tốt nhất chỉ đạt độ chính xác 42,9%, với hiệu suất giảm dần khi số lượng đối tượng tăng lên. CountQA cung cấp một chuẩn mực chuyên dụng để chẩn đoán và cải thiện khả năng đếm đối tượng của MLLM, đặt nền tảng cho sự phát triển của MLLM thế hệ tiếp theo không chỉ thông thạo về mặt kỹ thuật mà còn chính xác về mặt số học và nhận thức không gian.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một chuẩn mực mới, CountQA, chứng minh rõ ràng khả năng đếm đối tượng của MLLM không đủ trong điều kiện thực tế.
Đề Xuất hướng nghiên cứu nhằm cải thiện hiệu suất đếm đối tượng của MLLM.
Thúc đẩy nghiên cứu sâu hơn thông qua việc phát hành bộ dữ liệu và mã CountQA.
Limitations:
Tiêu chuẩn CountQA vẫn đang trong giai đoạn đầu và cần được mở rộng để bao gồm nhiều tình huống trực quan và loại đối tượng hơn.
Do hiệu suất của MLLM hiện đang được đánh giá tương đối thấp nên chúng ta phải liên tục theo dõi sự cải thiện hiệu suất của MLLM tiên tiến hơn trong tương lai.
👍