본 논문은 대규모 언어 모델(LLM)의 편향성, 윤리성, 공정성, 사실성을 평가하기 위한 새로운 프레임워크인 BEATS를 제시합니다. BEATS 프레임워크를 기반으로, 29가지의 다양한 지표를 사용하여 LLM의 성능을 측정하는 편향성 벤치마크를 제시합니다. 이러한 지표는 인구통계학적, 인지적, 사회적 편향성은 물론 윤리적 추론, 집단 공정성, 사실성 관련 오정보 위험 등 광범위한 특성을 포함합니다. 이러한 지표를 통해 LLM이 생성한 응답이 사회적 편견을 영속시켜 체계적인 불평등을 강화하거나 확대할 수 있는 정도를 정량적으로 평가할 수 있습니다. 본 벤치마크에서 높은 점수를 얻으려면 LLM은 응답에서 매우 공정한 행동을 보여야 하므로 책임감 있는 AI 평가를 위한 엄격한 기준이 됩니다. 실험 데이터를 기반으로 한 경험적 결과는 업계 최고 모델에서 생성된 출력의 37.65%가 어떤 형태의 편향성을 포함하고 있음을 보여주며, 이러한 모델을 중요한 의사결정 시스템에 사용할 경우 상당한 위험이 있음을 강조합니다. BEATS 프레임워크와 벤치마크는 LLM을 벤치마킹하고, 편향성을 유발하는 요인을 진단하고, 완화 전략을 개발하기 위한 확장 가능하고 통계적으로 엄격한 방법론을 제공합니다. BEATS 프레임워크를 통해 더욱 사회적으로 책임감 있고 윤리적으로 일치하는 AI 모델 개발을 지원하고자 합니다.