본 논문은 대규모 언어 모델(LLM)이 생성하는 사고 과정(CoT) 추론 내의 사회적 편향을 최초로 체계적으로 평가한 연구입니다. BBQ 데이터셋을 사용하여 다양한 주요 추론 모델(DeepSeek-R1, ChatGPT 등)의 예측 정확도와 편향을 분석했습니다. 연구 결과, 편향된 추론 단계가 잘못된 예측과 상관관계가 있으며, 종종 고정관념 표현으로 이어짐을 정량적으로 밝혔습니다. 또한, 추론 단계별 모델 예측 변화를 추적하여 편향을 감지하는 경량화된 완화 방법인 Answer Distribution as Bias Proxy (ADBP)를 제안하고, 이 방법이 대부분의 경우 기준선보다 편향을 완화하고 LLM 출력의 정확도를 향상시킴을 보였습니다.