Sign In

Social Bias Benchmark for Generation: A Comparison of Generation and QA-Based Evaluations

Created by
  • Haebom
Category
Empty

저자

Jiho Jin, Woosung Kang, Junho Myung, Alice Oh

개요

본 논문은 대규모 언어 모델(LLM)의 장문 생성에서 사회적 편향을 평가하기 위한 새로운 벤치마크인 Bias Benchmark for Generation (BBG)를 제안합니다. 기존의 편향 평가 방법들이 장문 생성에서의 편향을 제대로 평가하지 못하는 한계를 극복하기 위해, BBG는 이야기 프롬프트의 연장을 생성하도록 LLM을 평가하는 방식을 채택했습니다. 영어와 한국어로 벤치마크를 구축하여 10개의 LLM에 대해 중립적 및 편향된 생성 확률을 측정하고, 장문 이야기 생성 평가 결과를 다중 선택형 BBQ 평가와 비교하여 두 접근 방식 간의 불일치를 보여줍니다.

시사점, 한계점

시사점: LLM의 장문 생성에서 사회적 편향을 효과적으로 평가할 수 있는 새로운 벤치마크(BBG)를 제시합니다. 영어 및 한국어 데이터를 활용하여 다양한 언어적 맥락에서의 편향 측정이 가능합니다. 장문 생성 평가와 기존의 다중 선택형 평가 방식의 차이점을 보여줌으로써, LLM 편향 평가의 다양한 접근 방식을 고려해야 함을 시사합니다.
한계점: 현재 영어와 한국어 두 가지 언어에 대해서만 벤치마크가 구축되어 있어, 다른 언어로의 확장성이 필요합니다. 평가에 사용된 LLM의 종류와 수가 제한적일 수 있습니다. BBG와 BBQ 평가 간의 불일치 원인에 대한 심층적인 분석이 부족할 수 있습니다.
👍