Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

AUTALIC: Un conjunto de datos para el lenguaje anti-AUTista y capacitista en contexto

Created by
  • Haebom

Autor

Naba Rizvi, Harper Strickland, Daniel Gitelman, Tristan Cooper, Alexis Morales-Flores, Michael Golden, Aekta Kallepalli, Akshat Alurkar, Haaset Owens, Saleha Ahmedi, Isha Khirwadkar, Imani Munyaka, Nedjma Ousidhoum

Describir

A medida que aumenta la comprensión del autismo y el capacitismo, también aumenta la comprensión del lenguaje capacitista asociado con el autismo. Este lenguaje presenta desafíos significativos para la investigación en PNL debido a su naturaleza matizada y dependiente del contexto. Sin embargo, la detección del lenguaje capacitista antiautista sigue siendo un área inexplorada, y las herramientas de PNL existentes a menudo no logran capturar sus expresiones sutiles. En este artículo, abordamos esta brecha crítica presentando AUTALIC, el primer conjunto de datos de referencia dedicado a la detección de lenguaje capacitista antiautista en contexto. Este conjunto de datos consta de 2400 oraciones relacionadas con el autismo y su contexto, recopiladas de Reddit, anotadas por expertos con experiencia en neurodiversidad. Evaluaciones exhaustivas demuestran que los modelos lingüísticos actuales, incluyendo los LLM de vanguardia, tienen dificultades para identificar de forma fiable el capacitismo antiautista y coincidir con el juicio humano, lo que pone de relieve las limitaciones en este ámbito. Al publicar AUTALIC, junto con sus anotaciones individuales, ofrecemos un recurso valioso para los investigadores que estudian el capacitismo, la neurodiversidad y la discrepancia en los esfuerzos de anotación. Este conjunto de datos representa un paso importante hacia el desarrollo de sistemas de PNL más completos y contextualizados que reflejen mejor las diversas perspectivas.

Takeaways, Limitations

Takeaways: Contribuyó significativamente a la investigación en PNL al proporcionar AUTALIC, el primer conjunto de datos de referencia para la detección del lenguaje autista-capacitista. Puso de relieve las limitaciones de los modelos lingüísticos existentes y la necesidad de sistemas de PNL más completos. También proporcionó información valiosa para la investigación en neurodiversidad y los estudios de desajuste en tareas de anotación.
Limitations: Dado que el conjunto de datos se basa en datos recopilados de Reddit, podría reflejar características específicas de la plataforma. El problema de la inconsistencia en las tareas de anotación debería abordarse con más detalle en futuras investigaciones. Actualmente, no se ha realizado un análisis exhaustivo de las causas del bajo rendimiento del modelo de lenguaje.
👍