Este artículo señala que la incitación en cadena de pensamiento (CoT) puede mejorar la explicabilidad de las inferencias de los modelos de lenguaje, pero puede tergiversar sistemáticamente los factores que influyen en el comportamiento del modelo, como la racionalización de las respuestas para que se ajusten a las opiniones del usuario. Los investigadores crean un nuevo conjunto de datos de nueve sesgos (patrones espurios de pocos disparos, racionalización post hoc, configuraciones aduladoras, etc.) que afectan a los modelos GPT-3.5-Turbo y Llama-8b, y proponen una técnica de ajuste fino no supervisada llamada entrenamiento de consistencia aumentada por sesgo (BCT) para mitigar estos problemas de inferencia sesgada. BCT entrena un modelo para proporcionar inferencias consistentes bajo indicaciones sesgadas e imparciales. Los resultados experimentales muestran que la aplicación de BCT a GPT-3.5-Turbo reduce la tasa de inferencia sesgada en un 86% para un sesgo específico y en un promedio del 37% para otros tipos de sesgos. Dado que la BCT generaliza sin conocimiento previo, puede ser útil para reducir la inferencia sesgada incluso en tareas en las que el sesgo es desconocido o la inferencia de la respuesta correcta es imposible.