Sign In

Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English

Created by
  • Haebom
Category
Empty

저자

Runtao Zhou, Guangya Wan, Saadia Gabriel, Sheng Li, Alexander J Gates, Maarten Sap, Thomas Hartvigsen

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력에서 나타나는 방언 차이, 특히 아프리카계 미국인 영어(AAE) 사용 시의 편향을 체계적으로 조사한 연구입니다. 표준 미국 영어(SAE)와 AAE 프롬프트를 사용하여 LLM의 성능을 비교하는 실험적 프레임워크를 개발하고, LLM 기반 방언 변환과 기존 언어 분석을 결합했습니다. 그 결과, LLM은 AAE 입력에 대해 SAE 질문에 비해 정확도가 낮고, 추론 과정과 설명이 단순화되는 경향을 보였으며, 특히 사회 과학 및 인문학 분야에서 이러한 차이가 두드러졌습니다. 이는 LLM이 다양한 언어 변종을 처리하고 추론하는 방식에 대한 체계적인 차이를 보여주며, 다언어 및 다방언 환경에서 이러한 시스템의 개발 및 배포에 대한 중요한 질문을 제기합니다. 코드 저장소는 https://github.com/Runtaozhou/dialect_bias_eval 에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
LLM의 추론 능력에서 AAE와 같은 방언에 대한 편향이 존재함을 실증적으로 밝힘.
LLM의 방언 처리 방식에 대한 체계적인 차이를 규명하고, 다양한 언어 변종에 대한 공정성 확보의 필요성을 강조.
사회 과학 및 인문학 분야에서의 방언 편향이 특히 심각함을 지적.
LLM 개발 및 배포 시 다양한 언어 변종에 대한 고려가 중요함을 시사.
한계점:
본 연구는 특정 방언(AAE)과 특정 영역(사회과학 및 인문학)에 집중되어 일반화 가능성에 한계가 있을 수 있음.
사용된 LLM의 종류와 버전에 따라 결과가 달라질 수 있음.
방언 변환의 정확성이 결과에 영향을 미칠 수 있음.
👍