Trong bài báo này, chúng tôi phân tích lý do tại sao Vision Transformer (ViT) hoạt động kém hiệu quả trên chuẩn Abstract Reasoning Corpus (ARC) và trình bày một mô hình ViTARC cải tiến. ViT hiện tại không đáp ứng được hầu hết các tác vụ ARC ngay cả khi được huấn luyện với một triệu ví dụ do kiến trúc ViT thiếu khả năng biểu diễn. Để giải quyết vấn đề này, chúng tôi đề xuất ViTARC, giới thiệu biểu diễn đầu vào ở cấp độ pixel, phân mã thông báo nhận biết không gian và mã hóa vị trí dựa trên đối tượng bằng cách sử dụng phân đoạn tự động. ViTARC đạt tỷ lệ giải quyết gần 100% trong hơn một nửa trong số 400 tác vụ ARC công khai chỉ với học có giám sát, cho thấy độ lệch quy nạp phù hợp là rất quan trọng đối với tư duy thị giác trừu tượng ngay cả với dữ liệu dồi dào và ánh xạ không nhiễu.