Tyna Eloundou, Alex Beutel, David G. Robinson, Keren Gu-Lemberg, Anna-Luisa Brakman, Pamela Mishkin, Meghan Shah, Johannes Heidecke, Lilian Weng, Adam Tauman Kalai
개요
본 논문은 급증하는 챗봇의 공정성 평가의 중요성을 강조하며, 기존 알고리즘 공정성 논의의 중심이었던 제도적 의사결정 과제와 달리 챗봇의 다양한 활용 사례와 개방적인 특성을 고려한 새로운 편향 평가 방법을 제시합니다. 특히 챗봇 사용자의 인구통계적 특성에 따른 공정성인 "일인칭 공정성"을 평가하기 위해 확장 가능한 반사실적 접근법을 제안합니다. 언어 모델을 연구 조수(LMRA)로 활용하여 유해한 고정관념에 대한 정량적 측정과 챗봇 응답에서 인구통계학적 차이에 대한 정성적 분석을 수행합니다. 6개의 언어 모델을 대상으로 수백만 건의 상호 작용을 분석하여 9개 영역의 66개 과제에 걸쳐 두 가지 성별과 네 가지 인종에 대한 편향을 평가하고, 독립적인 인간의 주석을 통해 LMRA 생성 편향 평가를 검증합니다. 실제 챗봇 데이터를 기반으로 한 최초의 대규모 공정성 평가이며, 학습 후 강화 학습 기법이 편향을 완화하는 데 상당한 효과가 있음을 보여줍니다. 마지막으로 지속적인 편향 모니터링 및 완화를 위한 실용적인 방법론을 제공합니다.