BIS Reasoning 1.0은 대규모 일본어 데이터셋으로, 대규모 언어 모델(LLM)에서의 믿음과 모순되는 추론을 평가하도록 명시적으로 설계되었습니다. 기존의 NeuBAROCO나 JFLD와 달리 일반적 또는 믿음에 부합하는 추론에 초점을 맞추는 대신, 논리적으로 타당하지만 믿음과 모순되는 삼단논법을 도입하여 인간 중심의 말뭉치로 훈련된 LLM의 추론 편향을 밝힙니다. GPT 모델, Claude 모델, 그리고 주요 일본어 LLM을 포함한 최첨단 모델들을 벤치마킹한 결과, 성능에 상당한 차이가 있음을 보여주었으며, GPT-4o는 79.54%의 정확도를 달성했습니다. 논리적으로 타당하지만 믿음과 상충하는 입력을 처리할 때 현재 LLM의 중요한 약점을 확인했습니다.