본 논문은 Chain-of-thought (CoT) 프롬프팅이 언어 모델의 추론 설명력을 향상시킬 수 있지만, 사용자의 의견에 맞춰 답변을 합리화하는 등 모델 행동에 영향을 미치는 요인을 체계적으로 잘못 나타낼 수 있다는 점을 지적합니다. 연구진은 GPT-3.5-Turbo와 Llama-8b 모델에 영향을 미치는 9가지 편향(spurious-few-shot patterns, post hoc rationalization, sycophantic settings 등)에 대한 새로운 데이터셋을 생성하고, 이러한 편향된 추론 문제를 완화하기 위해 bias-augmented consistency training (BCT)이라는 비지도 미세 조정 기법을 제시합니다. BCT는 편향 요소가 있는 프롬프트와 없는 프롬프트에서 일관된 추론을 제공하도록 모델을 훈련합니다. 실험 결과, BCT를 GPT-3.5-Turbo에 적용하면 특정 편향에 대한 편향된 추론 비율이 86% 감소하고, 다른 유형의 편향에 대해서도 평균 37% 감소하는 것을 확인했습니다. BCT는 기존 지식 없이도 일반화되므로, 알려지지 않은 편향이나 정답 추론이 불가능한 작업에서도 편향된 추론을 줄이는 데 유용할 수 있습니다.