Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Artificial Intelligence Bias on English Language Learners in Automatic Scoring

Created by
  • Haebom

저자

Shuchen Guo, Yun Wang, Jichao Yu, Xuansheng Wu, Bilgehan Ayik, Field M. Watts, Ehsan Latif, Ninghao Liu, Lei Liu, Xiaoming Zhai

개요

본 연구는 중학교 과학 평가에 대한 학생들의 서술형 답변을 자동 채점 시스템으로 채점할 때, 영어 학습자(ELLs)에 대한 잠재적인 채점 편향과 불균형을 조사했습니다. 특히, ELLs가 불균형적으로 포함된 훈련 데이터가 채점 편향과 불균형에 어떻게 기여하는지 조사하는 데 중점을 두었습니다. BERT 모델을 네 가지 데이터셋(1) ELLs만, (2) 비-ELLs만, (3) 실제 ELLs와 비-ELLs 비율을 반영한 불균형 데이터셋, (4) ELLs와 비-ELLs가 균등하게 포함된 균형 데이터셋)으로 미세 조정했습니다. 21개의 평가 항목(ELL 응답 약 30,000개 항목 10개, 약 1,000개 항목 5개, 약 200개 항목 6개)을 분석하여 Friedman 검정을 사용하여 편향을 확인하고 채점 정확도(Acc)를 비교했습니다. ELLs와 비-ELLs 간의 평균 점수 차이(MSGs)를 측정하고, 사람과 AI 모델 모두에서 생성된 MSGs의 차이를 계산하여 채점 불균형을 확인했습니다. 훈련 데이터셋이 충분히 클 경우(ELL = 30,000 및 ELL = 1,000) AI 편향 및 ELLs와 비-ELLs 간의 왜곡된 불균형은 발견되지 않았지만, 표본 크기가 제한적인 경우(ELL = 200) 문제가 발생할 수 있음을 발견했습니다.

시사점, 한계점

시사점: 충분한 크기의 ELL 데이터를 포함한 훈련 데이터셋을 사용하면 자동 채점 시스템의 ELLs에 대한 채점 편향을 최소화할 수 있습니다. 대규모 데이터셋을 활용한 AI 기반 자동 채점 시스템은 공정한 평가에 기여할 수 있습니다.
한계점: ELL 데이터의 크기가 작을 경우 자동 채점 시스템의 편향 및 불균형이 발생할 수 있습니다. 본 연구는 특정 연령대(중학교)와 과목(과학)에 국한되어 일반화에 제약이 있을 수 있습니다. 다양한 평가 유형과 더욱 다양한 인구 통계적 특징을 가진 데이터셋을 사용한 추가 연구가 필요합니다.
👍