AUTALIC: A Dataset for Anti-AUTistic Ableist Language In Context
Created by
Haebom
저자
Naba Rizvi, Harper Strickland, Daniel Gitelman, Tristan Cooper, Alexis Morales-Flores, Michael Golden, Aekta Kallepalli, Akshat Alurkar, Haaset Owens, Saleha Ahmedi, Isha Khirwadkar, Imani Munyaka, Nedjma Ousidhoum
개요
AUTALIC은 자폐증 관련 혐오 발언을 감지하기 위한 최초의 벤치마크 데이터셋입니다. Reddit에서 수집한 2,400개의 문장과 주변 문맥을 포함하며, 신경다양성 분야 전문가들이 주석을 달았습니다. 기존의 최첨단 언어 모델들조차 자폐증 관련 혐오 발언을 신뢰성 있게 식별하고 인간의 판단과 일치하는 데 어려움을 보이며, 이 분야에서의 한계를 보여줍니다. AUTALIC 데이터셋과 개별 주석은 자폐증, 신경다양성 및 주석 작업의 불일치 연구에 귀중한 자료가 됩니다.
시사점, 한계점
•
시사점: 자폐증 관련 혐오 발언 감지에 특화된 최초의 데이터셋을 제공하여, 이 분야 연구의 발전에 기여합니다. 현존하는 언어 모델의 한계를 드러내고, 더욱 포괄적이고 맥락을 고려하는 NLP 시스템 개발의 필요성을 강조합니다. 신경다양성 및 주석 작업 불일치 연구에 유용한 자료를 제공합니다.
•
한계점: 데이터셋의 크기 (2,400 문장)가 상대적으로 작을 수 있습니다. Reddit 데이터에 의존함으로써 특정한 편향이 존재할 가능성이 있습니다. 전문가 주석에도 불구하고, 주석 간의 불일치가 존재할 수 있습니다. 자폐증 관련 혐오 발언의 다양한 표현 방식을 모두 포괄하지 못할 가능성이 있습니다.