Bài báo này phân tích cách một kiến trúc bộ mã hóa kép như CLIP ánh xạ hai loại đầu vào vào một không gian nhúng chung và dự đoán độ tương đồng của chúng. Để khắc phục những hạn chế của các phương pháp gán thuộc tính bậc nhất hiện có, chúng tôi đề xuất một phương pháp bậc hai cho phép gán các tương tác thuộc tính vào dự đoán của bộ mã hóa kép. Áp dụng phương pháp này vào mô hình CLIP, chúng tôi chứng minh rằng nó học được sự tương ứng chi tiết giữa các phân đoạn chú thích và vùng ảnh, tính đến cả sự trùng khớp lẫn không trùng khớp của đối tượng. Tuy nhiên, chúng tôi nhận thấy khả năng ngôn ngữ thị giác này thay đổi đáng kể giữa các lớp đối tượng, thể hiện các hiệu ứng ngoại miền đáng kể và có thể xác định cả lỗi riêng lẻ lẫn lỗi hệ thống. Mã nguồn được cung cấp công khai.