Bài báo này đề cập đến các lỗ hổng khi sử dụng mô hình ngôn ngữ quy mô lớn (LLM) để khớp dữ liệu và tạo dự đoán. Mặc dù LLM thể hiện hiệu suất dự đoán cạnh tranh trên nhiều tác vụ khác nhau, chúng tôi nhận thấy rằng chúng dễ bị ảnh hưởng bởi những thay đổi không liên quan đến tác vụ trong biểu diễn dữ liệu (ví dụ: đổi tên biến). Hiện tượng này xảy ra trong cả học trong ngữ cảnh và tinh chỉnh có giám sát, cũng như trong cả LLM trọng số đóng và trọng số mở. Phân tích cơ chế chú ý trong LLM trọng số mở cho thấy chúng tập trung quá mức vào các mã thông báo ở các vị trí cụ thể. Ngay cả các mô hình tiên tiến như TabPFN, được đào tạo chuyên biệt cho việc khớp dữ liệu, cũng không tránh khỏi những lỗ hổng này. Do đó, các LLM hiện tại thậm chí còn thiếu mức độ mạnh mẽ cơ bản để được sử dụng như một công cụ khớp dữ liệu có nguyên tắc.