Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Cadena de inferencia pragmática (PIC): mejora del razonamiento de los LLM sobre lenguaje tóxico implícito auténtico

Created by
  • Haebom

Autor

Xi Chen, Shuo Wang

Describir

Este artículo aborda los desafíos éticos de los modelos lingüísticos a gran escala (LLM) y plantea nuevas posibilidades para el desarrollo de tecnologías de detección de lenguaje tóxico. Si bien estudios previos han utilizado datos basados ​​en asociaciones semánticas simples (p. ej., asociaciones sesgadas entre "él" y "programador" y "ella" y "ama de casa"), este estudio recopila datos de interacciones tóxicas del mundo real, lo que evita la censura en línea y ha sido identificado por evaluadores humanos como un método que requiere inferencia. Basándonos en estos datos, proponemos un novedoso método de inducción, la Cadena de Inferencia Pragmática (PIC), que aprovecha la investigación en ciencias cognitivas y lingüística. Demostramos que la inducción PIC mejora significativamente la tasa de éxito en la identificación de lenguaje tóxico implícito en comparación con los métodos de inducción existentes (p. ej., CoT, basado en reglas), en modelos como GPT-4o, Llama-3.1-70B-Instruct, DeepSeek-v2.5 y DeepSeek-v3, y produce procesos de inferencia más claros y consistentes. Esto sugiere que nuestro método podría generalizarse a otras tareas que requieren mucha inferencia, como la comprensión del humor y de metáforas.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo método de estímulo (PIC) que resulta eficaz para detectar lenguaje tóxico sugestivo y sofisticado.
Mejorar el rendimiento de detección de lenguaje tóxico mejorando las capacidades de inferencia de LLM.
Sugerir la generalización de las indicaciones PIC a otras tareas que requieren mucha inferencia (por ejemplo, humor, comprensión de metáforas)
Construcción y utilización de un conjunto de datos de interacciones tóxicas en entornos en línea del mundo real
Limitations:
La generalización del estímulo PIC propuesto debe verificarse mediante investigaciones adicionales.
Es necesario seguir debatiendo el alcance y la representatividad del conjunto de datos utilizado.
Se necesita un análisis comparativo más profundo del rendimiento de la estimulación PIC para varios modelos LLM.
👍