Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective
Created by
Haebom
저자
Weijie Xu, Yiwen Wang, Chi Xue, Xiangkun Hu, Xi Fang, Guimin Dong, Chandan K. Reddy
개요
대규모 언어 모델(LLM)은 종종 고유한 편향을 가진 응답을 생성하여 실제 응용 프로그램에서 신뢰성을 저해합니다. 기존 평가 방법은 장문 응답의 편향과 LLM 출력의 고유한 변동성을 종종 간과합니다. 이러한 과제를 해결하기 위해 본 논문에서는 인구 통계적 그룹 간 장문 응답에서 미묘한 의미 차이를 감지하여 LLM의 그룹 수준 공정성을 평가하는 새로운 통계적 프레임워크인 FiSCo(Fine-grained Semantic Comparison)를 제안합니다. 감정 또는 토큰 수준 비교에 중점을 둔 이전 연구와 달리, FiSCo는 응답의 의미 일관성을 평가하기 위해 함축 확인을 활용하여 의미 수준에서 분석합니다. 모델 출력을 의미적으로 구별되는 주장으로 분해하고 통계적 가설 검정을 적용하여 그룹 간 및 그룹 내 유사성을 비교하여 미묘한 편향을 강력하게 감지할 수 있습니다. 새로운 그룹 반사실적 공정성 정의를 공식화하고 성별, 인종 및 연령을 포함하는 합성 및 사람이 주석을 단 데이터 세트에서 FiSCo를 검증합니다. 실험 결과 FiSCo는 다양한 평가 지표보다 우수하게 미묘한 편향을 더 안정적으로 식별하면서 확률적 LLM 변동성의 영향을 줄이는 것으로 나타났습니다.