본 연구는 중학교 과학 평가에 대한 서술형 답변 자동 채점 시스템을 사용할 때 영어 학습자(ELLs)에 대한 잠재적인 채점 편향과 불균형을 조사했습니다. 특히 ELLs가 불균형적으로 포함된 훈련 데이터가 채점 편향과 불균형에 어떻게 기여하는지에 초점을 맞추었습니다. ELLs의 답변, 비-ELLs의 답변, ELLs와 비-ELLs의 실제 비율을 반영하는 혼합 데이터셋(불균형), 그리고 양쪽 그룹이 동일하게 나타나는 균형 잡힌 혼합 데이터셋의 네 가지 데이터셋으로 BERT를 미세 조정했습니다. 21개의 평가 항목(ELL 응답 수: 약 30,000개, 1,000개, 200개 항목 각각 10개, 5개, 6개)을 분석하여 Friedman 검정을 사용하여 편향을 식별하고 채점 정확도(Acc)를 계산하고 비교했습니다. ELLs와 비-ELLs 간의 평균 점수 차이(MSGs)를 측정하고, 사람과 AI 모델 모두에서 생성된 MSGs의 차이를 계산하여 채점 불균형을 확인했습니다. 훈련 데이터셋이 충분히 클 경우(ELL = 30,000 및 ELL = 1,000) AI 편향 및 ELLs와 비-ELLs 간의 왜곡된 불균형은 발견되지 않았지만, 표본 크기가 제한적인 경우(ELL = 200) 우려가 존재할 수 있음을 발견했습니다.