본 논문은 대규모 언어 모델(LLM)의 공정성을 보장하기 위해, 저자원은 언어와 지역적 맥락에 대한 고려가 부족한 점을 해결하고자 PakBBQ를 소개합니다. PakBBQ는 원래의 BBQ(Bias Benchmark for Question Answering) 데이터셋을 문화적, 지역적으로 확장한 것으로, 파키스탄과 관련된 8가지 편향 차원(나이, 장애, 외모, 성별, 사회 경제적 지위, 종교, 지역적 소속, 언어 격식)에 걸쳐 영어와 우르두어로 214개 이상의 템플릿, 17,180개의 질의응답(QA) 쌍을 포함합니다. 다양한 다국어 LLM을 모호한 문맥과 명시적으로 문맥이 구체화된 환경, 부정적 질문과 긍정적 질문 프레이밍 하에서 평가합니다. 실험 결과, 문맥 구체화 시 평균 12%의 정확도 향상, 영어보다 우르두어에서 일관적으로 더 강한 반편향적 행동, 부정적 질문 프레이밍을 통해 고정관념적 응답 감소 효과를 확인했습니다.