본 논문은 언어 모델(LM)의 인과 관계 추론 능력을 심리학의 "Blicket Test"를 이용하여 평가한다. LM은 일반적인 단순한 인과 관계는 잘 추론하지만, 비일반적인 복합적인 인과 관계는 어려워하는 "선택적 편향(disjunctive bias)"을 보이는 것으로 나타났다. 이러한 편향은 모델의 종류, 크기, 프롬프트 전략에 관계없이 지속되며, 과제의 복잡성이 증가할수록 성능이 저하된다. 흥미롭게도, 성인에게서도 유사한 편향이 발견되어 LM이 훈련 데이터에서 이러한 추론 방식을 학습했을 가능성을 시사한다. 논문에서는 LM의 추론 프로파일이 어린이가 아닌 성인과 유사함을 정량적으로 보여주고, 선택적 편향을 줄이는 테스트 시간 샘플링 기법을 제안한다.