Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AUTALIC: Bộ dữ liệu về ngôn ngữ phân biệt đối xử với người khuyết tật chống tự kỷ trong bối cảnh

Created by
  • Haebom

Tác giả

Naba Rizvi, Harper Strickland, Daniel Gitelman, Tristan Cooper, Alexis Morales-Flores, Michael Golden, Aekta Kallepalli, Akshat Alurkar, Haaset Owens, Saleha Ahmedi, Isha Khirwadkar, Imani Munyaka, Nedjma Ousidhoum

Phác thảo

Khi sự hiểu biết về chứng tự kỷ và phân biệt đối xử với người khuyết tật ngày càng tăng, thì việc hiểu ngôn ngữ phân biệt đối xử với người khuyết tật liên quan đến chứng tự kỷ cũng tăng theo. Ngôn ngữ này đặt ra những thách thức đáng kể cho nghiên cứu NLP do bản chất phức tạp và phụ thuộc vào ngữ cảnh của nó. Tuy nhiên, việc phát hiện ngôn ngữ phân biệt đối xử với người khuyết tật chống tự kỷ vẫn là một lĩnh vực chưa được khám phá, và các công cụ NLP hiện có thường không nắm bắt được những biểu hiện tinh tế của nó. Trong bài báo này, chúng tôi giải quyết khoảng trống quan trọng này bằng cách giới thiệu AUTALIC, bộ dữ liệu chuẩn đầu tiên chuyên phát hiện ngôn ngữ phân biệt đối xử với người khuyết tật chống tự kỷ trong ngữ cảnh. Bộ dữ liệu này bao gồm 2.400 câu liên quan đến chứng tự kỷ và ngữ cảnh xung quanh được thu thập từ Reddit, được chú thích bởi các chuyên gia giàu kinh nghiệm có nền tảng về đa dạng thần kinh. Các đánh giá toàn diện cho thấy các mô hình ngôn ngữ hiện tại, bao gồm cả các chương trình Thạc sĩ Luật (LLM) tiên tiến, gặp khó khăn trong việc xác định một cách đáng tin cậy tình trạng phân biệt đối xử với người khuyết tật chống tự kỷ và phù hợp với đánh giá của con người, làm nổi bật những hạn chế trong lĩnh vực này. Bằng cách công bố AUTALIC, cùng với các chú thích riêng lẻ, chúng tôi cung cấp một nguồn tài nguyên giá trị cho các nhà nghiên cứu đang nghiên cứu về phân biệt đối xử với người khuyết tật, đa dạng thần kinh và sự khác biệt trong các nỗ lực chú thích. Bộ dữ liệu này là bước quan trọng hướng tới việc phát triển các hệ thống NLP toàn diện hơn và có nhận thức về ngữ cảnh, phản ánh tốt hơn các quan điểm đa dạng.

Takeaways, Limitations

Takeaways: Đóng góp đáng kể cho nghiên cứu NLP bằng cách cung cấp AUTALIC, bộ dữ liệu chuẩn đầu tiên cho việc phát hiện ngôn ngữ ở người tự kỷ và người khuyết tật. Bộ dữ liệu này đã làm nổi bật những hạn chế của các mô hình ngôn ngữ hiện có và nhấn mạnh nhu cầu về các hệ thống NLP toàn diện hơn. Nó cũng cung cấp thông tin giá trị cho nghiên cứu về sự đa dạng thần kinh và các nghiên cứu về sự không khớp nhiệm vụ chú thích.
Limitations: Vì tập dữ liệu dựa trên dữ liệu thu thập từ Reddit, nó có thể phản ánh các đặc điểm riêng của từng nền tảng. Vấn đề thiếu nhất quán trong các tác vụ chú thích cần được giải quyết thêm trong các nghiên cứu trong tương lai. Hiện tại, vẫn còn thiếu các phân tích chuyên sâu về nguyên nhân gây ra hiệu suất mô hình ngôn ngữ kém.
👍