본 논문은 대규모 비전-언어 모델(LVLMs)에서 사고연쇄(CoT) 추론의 신뢰성에 대한 첫 번째 종합적인 연구를 제시합니다. 텍스트 기반과 이미지 기반 편향이 추론 및 편향 표현에 미치는 영향을 조사하며, 기존 방법보다 훨씬 정밀한 CoT 추론 분석을 가능하게 하는 새로운 세분화된 평가 파이프라인을 도입합니다. 이를 통해 모델이 다양한 유형의 편향을 처리하고 반응하는 방식에 대한 새로운 통찰력을 제공하며, 특히 이미지 기반의 미묘한 편향은 명시적인 텍스트 기반 편향에 비해 표현되는 경우가 드물다는 것을 밝힙니다. 또한, 일관성 없는 추론이라는 새로운 현상을 발견하여, 신뢰할 수 없는 CoT로부터 편향된 추론을 감지하는 잠재적인 지표로 제시합니다. 마지막으로, 다양한 수준의 암시적 단서를 가진 LLMs에 대해 동일한 평가 파이프라인을 적용하여 기존 언어 전용 추론 모델이 명시적으로 언급되지 않은 단서를 표현하는 데 어려움을 겪고 있음을 보여줍니다.