Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tiết lộ phản ứng của các mô hình ngôn ngữ thị giác lớn đối với các mã thông báo không có trực quan

Created by
  • Haebom

Tác giả

Sohee Kim, Soohyun Ryu, Joonhyung Park, Eunho Yang

Phác thảo

Bài báo này tiết lộ một hiện tượng trong đó các mô hình ngôn ngữ thị giác quy mô lớn (LVLM) nhận thức nhầm các đầu vào văn bản mà không có bằng chứng trực quan là một phần của hình ảnh, dẫn đến lỗi. Bằng cách nghiên cứu khả năng của LVLM trong việc xác định xem các khái niệm văn bản có bắt nguồn từ hình ảnh hay không, chúng tôi đã phát hiện ra các nơ-ron nhận thức sự vắng mặt thị giác (VA), một tập hợp con cụ thể của các nơ-ron mạng truyền thẳng (FFN) báo hiệu sự vắng mặt thị giác bằng một mẫu kích hoạt duy nhất. Tận dụng mẫu này, chúng tôi phát triển một mô-đun phát hiện phân loại các mã thông báo đầu vào thành có gốc trực quan. Dựa trên dự đoán này, chúng tôi đề xuất một phương pháp để cải thiện đầu ra bằng cách diễn giải lại lời nhắc câu hỏi hoặc thay thế các mã thông báo vắng mặt được phát hiện trong quá trình tạo. Các thí nghiệm mở rộng chứng minh rằng phương pháp được đề xuất làm giảm hiệu quả xu hướng đưa ra các giả định không chính xác của mô hình về sự hiện diện trực quan và có thể khái quát hóa trên nhiều LVLM khác nhau.

Takeaways, Limitations

Takeaways:
Cung cấp những hiểu biết mới về quá trình xử lý thông tin trực quan của LVLM.
Chúng tôi trình bày một phương pháp mới để phát hiện văn bản đầu vào mà không cần bằng chứng trực quan và cải thiện kết quả đầu ra.
Chúng tôi trình bày phương pháp chung áp dụng cho nhiều LVLM khác nhau.
Limitations:
Cần có thêm nhiều nghiên cứu nữa để xác định xem mô hình hoạt động của tế bào thần kinh VA có giống nhau trên tất cả các LVLM hay không.
Cần xác thực thêm để xác định phương pháp đề xuất có thể khái quát hóa tốt đến mức nào đối với các loại hình ảnh và văn bản đầu vào khác nhau.
Cần có thêm nghiên cứu về hiệu quả của nó trong những trường hợp đòi hỏi khả năng suy luận trực quan phức tạp.
👍