본 논문은 대규모 언어 모델(LLM)의 편향성을 다양한 모델 패밀리, 규모, 튜닝 전략에 걸쳐 평가한 연구이다. 100만 개 이상의 구조화된 프롬프트를 사용하여 4가지 주요 패밀리의 24개 LLM을 평가하여 편향성 유사성을 기능적 유사성으로 재구성하였다. 모델 크기, 아키텍처, 지시 튜닝 또는 공개 여부가 공정성에 큰 영향을 미치지 않음을 발견하였으며, 편향된 행동은 맥락에 크게 의존하고 구조적으로 지속되며, 기존의 정렬 기술에 저항하는 경향이 있음을 밝혔다. 또한, 오픈소스 모델이 공정성과 유용성 측면에서 종종 독점 모델과 동등하거나 우수한 성능을 보임을 발견하였다.