본 논문은 최신 안전 장치가 노골적인 편향된 출력을 효과적으로 억제하지만, 현재의 평가 벤치마크를 벗어나는 복잡한 논리적 추론 작업에서 더 미묘한 형태의 사회적 편향이 나타난다는 점에 주목한다. 이러한 격차를 메우기 위해, 논문은 LLM의 논리적 추론 및 의사 결정에 대한 사회적 고정관념의 영향을 체계적으로 탐구하는 논리 그리드 퍼즐을 사용하는 새로운 평가 프레임워크인 PRIME(모델 평가에서 내재된 편향을 위한 퍼즐 추론)을 소개한다. PRIME은 자동 생성 및 검증, 복잡성 및 편향된 설정의 가변성을 가능하게 한다. PRIME은 공유된 퍼즐 구조에서 생성된 전형적인, 반-전형적인, 중립적인 퍼즐 변형을 포함하여 제어되고 세분화된 비교를 허용한다. 여러 모델 제품군을 퍼즐 크기에 따라 평가하고 프롬프트 기반 완화 전략의 효과를 테스트한다. 성별 고정관념에 대한 실험을 통해 모델이 솔루션이 고정관념적 연관성과 일치할 때 일관되게 더 정확하게 추론한다는 사실을 발견했다. 이는 공정성이 중요한 LLM의 연역적 추론에서 지속되는 사회적 편향을 진단하고 정량화하는 PRIME의 중요성을 보여준다.