Khi sự hiểu biết về chứng tự kỷ và phân biệt đối xử với người khuyết tật ngày càng tăng, thì việc hiểu ngôn ngữ phân biệt đối xử với người khuyết tật liên quan đến chứng tự kỷ cũng tăng theo. Ngôn ngữ này đặt ra những thách thức đáng kể cho nghiên cứu NLP do bản chất phức tạp và phụ thuộc vào ngữ cảnh của nó. Tuy nhiên, việc phát hiện ngôn ngữ phân biệt đối xử với người khuyết tật chống tự kỷ vẫn là một lĩnh vực chưa được khám phá, và các công cụ NLP hiện có thường không nắm bắt được những biểu hiện tinh tế của nó. Trong bài báo này, chúng tôi giải quyết khoảng trống quan trọng này bằng cách giới thiệu AUTALIC, bộ dữ liệu chuẩn đầu tiên chuyên phát hiện ngôn ngữ phân biệt đối xử với người khuyết tật chống tự kỷ trong ngữ cảnh. Bộ dữ liệu này bao gồm 2.400 câu liên quan đến chứng tự kỷ và ngữ cảnh xung quanh được thu thập từ Reddit, được chú thích bởi các chuyên gia giàu kinh nghiệm có nền tảng về đa dạng thần kinh. Các đánh giá toàn diện cho thấy các mô hình ngôn ngữ hiện tại, bao gồm cả các chương trình Thạc sĩ Luật (LLM) tiên tiến, gặp khó khăn trong việc xác định một cách đáng tin cậy tình trạng phân biệt đối xử với người khuyết tật chống tự kỷ và phù hợp với đánh giá của con người, làm nổi bật những hạn chế trong lĩnh vực này. Bằng cách công bố AUTALIC, cùng với các chú thích riêng lẻ, chúng tôi cung cấp một nguồn tài nguyên giá trị cho các nhà nghiên cứu đang nghiên cứu về phân biệt đối xử với người khuyết tật, đa dạng thần kinh và sự khác biệt trong các nỗ lực chú thích. Bộ dữ liệu này là bước quan trọng hướng tới việc phát triển các hệ thống NLP toàn diện hơn và có nhận thức về ngữ cảnh, phản ánh tốt hơn các quan điểm đa dạng.