본 논문은 대규모 언어 모델(LLM)의 장문 생성에서 사회적 편향을 평가하기 위한 새로운 벤치마크인 Bias Benchmark for Generation (BBG)를 제안합니다. 기존의 편향 평가 방법들이 장문 생성에서의 편향을 제대로 평가하지 못하는 한계를 극복하기 위해, BBG는 이야기 프롬프트의 연장을 생성하도록 LLM을 평가하는 방식을 채택했습니다. 영어와 한국어로 벤치마크를 구축하여 10개의 LLM에 대해 중립적 및 편향된 생성 확률을 측정하고, 장문 이야기 생성 평가 결과를 다중 선택형 BBQ 평가와 비교하여 두 접근 방식 간의 불일치를 보여줍니다.