Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ChineseHarm-Bench: un punto de referencia para la detección de contenido dañino chino

Created by
  • Haebom

Autor

Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng

Describir

Este artículo presenta un punto de referencia completo, anotado por expertos, para la detección de contenido dañino en chino. Para abordar los desafíos de los recursos existentes para la detección de contenido dañino, centrados en el inglés, y el alcance limitado de los conjuntos de datos en chino, desarrollamos un punto de referencia que incluye seis categorías representativas de datos del mundo real. Mediante el proceso de anotación, establecemos una base de reglas de conocimiento experto para respaldar la detección de contenido dañino en chino en LLM. Posteriormente, proponemos un modelo de referencia para el aumento del conocimiento que integra reglas de conocimiento anotadas por personas con el conocimiento implícito de los LLM, lo que permite que un modelo pequeño alcance un rendimiento comparable al de los LLM de vanguardia. El código y los datos están disponibles en https://github.com/zjunlp/ChineseHarm-bench .

Takeaways, Limitations

Takeaways:
Contribuir a resolver el problema de la escasez de datos en el campo de la detección de contenido dañino chino.
Proporcionar puntos de referencia intercategorías a gran escala basados en datos del mundo real.
Sugerir la posibilidad de mejorar el rendimiento de los LLM aprovechando la base de reglas de conocimiento de expertos.
Sugerir la posibilidad de mejorar el desempeño de modelos de pequeña escala a través de técnicas de aumento de conocimiento.
Esperamos que el código y los datos publicados estimulen la investigación de seguimiento.
Limitations:
Las categorías de referencia podrán limitarse a seis.
Puede que no refleje plenamente la diversidad de contenidos nocivos del mundo real.
Se necesita más investigación sobre el rendimiento de generalización de la técnica de aumento de conocimiento propuesta.
Limitaciones en la generalización de los resultados del estudio, que se limitan a un idioma específico (chino).
👍