Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Artificial Intelligence Bias on English Language Learners in Automatic Scoring

Created by
  • Haebom

저자

Shuchen Guo, Yun Wang, Jichao Yu, Xuansheng Wu, Bilgehan Ayik, Field M. Watts, Ehsan Latif, Ninghao Liu, Lei Liu, Xiaoming Zhai

개요

본 연구는 중학교 과학 평가에 대한 서술형 답변 자동 채점 시스템을 사용할 때 영어 학습자(ELLs)에 대한 잠재적인 채점 편향과 불균형을 조사했습니다. 특히 ELLs가 불균형적으로 포함된 훈련 데이터가 채점 편향과 불균형에 어떻게 기여하는지에 초점을 맞추었습니다. ELLs의 답변, 비-ELLs의 답변, ELLs와 비-ELLs의 실제 비율을 반영하는 혼합 데이터셋(불균형), 그리고 양쪽 그룹이 동일하게 나타나는 균형 잡힌 혼합 데이터셋의 네 가지 데이터셋으로 BERT를 미세 조정했습니다. 21개의 평가 항목(ELL 응답 수: 약 30,000개, 1,000개, 200개 항목 각각 10개, 5개, 6개)을 분석하여 Friedman 검정을 사용하여 편향을 식별하고 채점 정확도(Acc)를 계산하고 비교했습니다. ELLs와 비-ELLs 간의 평균 점수 차이(MSGs)를 측정하고, 사람과 AI 모델 모두에서 생성된 MSGs의 차이를 계산하여 채점 불균형을 확인했습니다. 훈련 데이터셋이 충분히 클 경우(ELL = 30,000 및 ELL = 1,000) AI 편향 및 ELLs와 비-ELLs 간의 왜곡된 불균형은 발견되지 않았지만, 표본 크기가 제한적인 경우(ELL = 200) 우려가 존재할 수 있음을 발견했습니다.

시사점, 한계점

시사점:
충분한 ELL 데이터를 포함한 훈련 데이터셋을 사용하면 자동 채점 시스템에서 ELLs에 대한 채점 편향을 줄일 수 있습니다.
자동 채점 시스템의 공정성을 평가하기 위해서는 ELLs와 비-ELLs 간의 평균 점수 차이(MSGs)를 분석하는 것이 중요합니다.
훈련 데이터셋의 크기가 자동 채점 시스템의 정확성과 공정성에 중요한 영향을 미칩니다.
한계점:
분석에 사용된 평가 항목의 수가 제한적일 수 있습니다.
다양한 유형의 과학 평가 항목에 대한 일반화 가능성이 제한적일 수 있습니다.
ELLs의 언어 능력 수준을 고려하지 않은 점이 한계로 작용할 수 있습니다.
200개의 ELL 응답으로는 훈련 데이터로 충분하지 않을 수 있습니다. 더 많은 데이터가 필요할 수 있습니다.
👍