Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Sintético vs. Oro: El rol de las etiquetas y datos generados por LLM en la detección del ciberacoso

Created by
  • Haebom

Autor

Arefeh Kazemi, Sri Balaaji Natarajan Kalaivendan, Joachim Wagner, Hamza Qadeer, Kanishk Verma, Brian Davis

Describir

Este artículo aborda los desafíos del desarrollo de un sistema de detección de ciberacoso (CB) para usuarios en línea, incluyendo menores. Específicamente, proponemos un método para generar datos sintéticos y etiquetas utilizando un modelo de lenguaje a gran escala (LLM) para abordar la falta de datos etiquetados que reflejen el lenguaje y los estilos de comunicación de los menores. Los resultados experimentales muestran que un clasificador CB basado en BERT entrenado con datos sintéticos generados mediante LLM logra un rendimiento comparable (75.8% de precisión vs. 81.5% de precisión) a un clasificador entrenado con datos reales. Además, LLM también es eficaz para etiquetar datos del mundo real, ya que el clasificador BERT logra un rendimiento comparable (79.1% de precisión vs. 81.5% de precisión). Esto sugiere que LLM puede ser una solución escalable, ética y rentable para generar datos de detección de ciberacoso.

Takeaways, Limitations

Takeaways:
Demostramos que LLM puede abordar eficazmente los desafíos de generación y etiquetado de datos para los sistemas de detección del ciberacoso.
Ofrecemos soluciones prácticas al desafío de obtener datos sobre acoso cibernético en niños, que se ve obstaculizado por restricciones éticas, legales y técnicas.
El aprovechamiento de datos sintéticos basados ​​en LLM permite la construcción de sistemas de detección de ciberacoso rentables y escalables.
Limitations:
El rendimiento del modelo con datos sintéticos fue ligeramente inferior al del modelo con datos reales (75,8 % frente al 81,5 %). Se requiere más investigación para reducir esta diferencia de rendimiento.
Es necesaria una mayor validación de la calidad y diversidad de los datos generados por LLM.
Es necesario evaluar con qué precisión los datos generados por el LLM reflejan los patrones de uso del lenguaje de los niños reales.
👍