본 논문은 과학적 아이디어 생성 및 선택에 필요한 목표 확률 분포를 따르는 탐구의 중요성을 강조합니다. 기존 AI 벤치마크와 달리, 확률적 탐구를 저해하는 대규모 언어 모델(LLM)의 훈련 방식을 지적합니다. 간단한 확률 분포를 따르도록 LLM에 지시하는 실험을 수행한 결과, 모든 현대 LLM이 해당 분포를 심각하게 따르지 못하는 것을 확인했습니다. 예를 들어, "1"을 49%의 확률로 생성하도록 요청하면 거의 100% "0"을 생성하는 현상을 보였습니다. 이러한 현상은 가장 높은 확률의 출력을 거의 독점적으로 생성하는 경향을 보이며, 강력한 내장 편향조차 무시하는 것으로 나타났습니다.