[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Xử lý ngữ liệu trừu tượng và lý luận bằng Vision Transformers: Tầm quan trọng của biểu diễn 2D, vị trí và đối tượng

Created by
  • Haebom

Tác giả

Wenhao Li, Yudong Xu, Scott Sanner, Elias Boutros Khalil

Phác thảo

Trong bài báo này, chúng tôi phân tích lý do tại sao Vision Transformer (ViT) hoạt động kém hiệu quả trên chuẩn Abstract Reasoning Corpus (ARC) và trình bày một mô hình ViTARC cải tiến. ViT hiện tại không đáp ứng được hầu hết các tác vụ ARC ngay cả khi được huấn luyện với một triệu ví dụ do kiến trúc ViT thiếu khả năng biểu diễn. Để giải quyết vấn đề này, chúng tôi đề xuất ViTARC, giới thiệu biểu diễn đầu vào ở cấp độ pixel, phân mã thông báo nhận biết không gian và mã hóa vị trí dựa trên đối tượng bằng cách sử dụng phân đoạn tự động. ViTARC đạt tỷ lệ giải quyết gần 100% trong hơn một nửa trong số 400 tác vụ ARC công khai chỉ với học có giám sát, cho thấy độ lệch quy nạp phù hợp là rất quan trọng đối với tư duy thị giác trừu tượng ngay cả với dữ liệu dồi dào và ánh xạ không nhiễu.

Takeaways, Limitations

Takeaways:
Chúng tôi nhấn mạnh những hạn chế về khả năng biểu đạt của kiến trúc ViT và nhấn mạnh tầm quan trọng của độ lệch quy nạp phù hợp đối với tư duy trực quan trừu tượng.
Mô hình ViTARC đạt hiệu suất cao ngay cả trong điều kiện dữ liệu phong phú và lập bản đồ không có nhiễu, cung cấp nền tảng mới cho nghiên cứu suy luận trực quan dựa trên máy biến áp.
Chúng tôi chứng minh rằng các kỹ thuật như biểu diễn đầu vào ở cấp độ pixel, phân quyền nhận biết không gian và mã hóa vị trí dựa trên đối tượng có hiệu quả trong việc cải thiện hiệu suất suy luận trực quan.
Limitations:
Mô hình ViTARC được chuyên biệt hóa cho chuẩn mực ARC và hiệu suất tổng quát của nó đối với các tác vụ suy luận trực quan khác cần được nghiên cứu thêm.
Chúng tôi không đạt được hiệu suất gần 100% trên tất cả các nhiệm vụ ARC (chỉ đạt được ở hơn một nửa số nhiệm vụ).
Cần nghiên cứu thêm để xác định liệu những cải tiến được đề xuất có thể áp dụng cho các kiến trúc dựa trên máy biến áp khác hay không.
👍