Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English
Created by
Haebom
Category
Empty
저자
Runtao Zhou, Guangya Wan, Saadia Gabriel, Sheng Li, Alexander J Gates, Maarten Sap, Thomas Hartvigsen
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력에서 나타나는 방언 차이, 특히 아프리카계 미국인 영어(AAE) 사용 시의 편향을 체계적으로 조사한 연구입니다. 표준 미국 영어(SAE)와 AAE 프롬프트를 사용하여 LLM의 성능을 비교하는 실험적 프레임워크를 개발하고, LLM 기반 방언 변환과 기존 언어 분석을 결합했습니다. 그 결과, LLM은 AAE 입력에 대해 SAE 질문에 비해 정확도가 낮고, 추론 과정과 설명이 단순화되는 경향을 보였으며, 특히 사회 과학 및 인문학 분야에서 이러한 차이가 두드러졌습니다. 이는 LLM이 다양한 언어 변종을 처리하고 추론하는 방식에 대한 체계적인 차이를 보여주며, 다언어 및 다방언 환경에서 이러한 시스템의 개발 및 배포에 대한 중요한 질문을 제기합니다. 코드 저장소는 https://github.com/Runtaozhou/dialect_bias_eval 에서 공개적으로 이용 가능합니다.