Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Benchmarking Educational LLMs with Analytics: A Case Study on Gender Bias in Feedback

Created by
  • Haebom
Category
Empty

저자

Yishan Du, Conrad Borchers, Mutlu Cukurova

개요

본 논문은 교사의 교육 실천에 GenAI의 활용이 증가함에 따라, 교육적 목적으로 대규모 언어 모델(LLM)의 편향을 측정하기 위한 임베딩 기반 벤치마킹 프레임워크를 제시한다. AES 2.0 코퍼스에서 수집된 600개의 실제 학생 에세이를 사용하여, (i) 어휘 기반의 성별 관련 용어 교체를 통한 암시적 단서, (ii) 프롬프트 내 저자 배경의 성별 관련 단서를 통해 제어된 반사실적 상황을 구성했다. 6개의 대표적인 LLM(GPT-5 mini, GPT-4o mini, DeepSeek-R1, DeepSeek-R1-Qwen, Gemini 2.5 Pro, Llama-3-8B)을 대상으로, 문장 임베딩의 코사인 및 유클리드 거리를 사용하여 응답 발산 정도를 정량화하고, 순열 검정을 통해 유의미성을 평가했으며, 차원 축소를 통해 구조를 시각화했다. 모든 모델에서, 암시적 조작은 남성-여성 반사실적 상황에서 여성-남성 반사실적 상황보다 더 큰 의미적 변화를 유발했다. GPT 및 Llama 모델만 명시적 성별 단서에 민감하게 반응했다. 이러한 결과는 최첨단 LLM조차 성별 치환에 비대칭적인 의미적 응답을 보이며, 학습자에게 제공하는 피드백에 지속적인 성별 편향이 존재함을 시사한다. 정성적 분석을 통해 일관된 언어적 차이(예: 남성 단서 하에서는 더 자율성을 지원하는 피드백, 여성 단서 하에서는 더 통제적인 피드백)가 밝혀졌다.

시사점, 한계점

교육적 GenAI의 공정성 감사를 위한 시사점 제시
학습 분석에서 반사실적 평가를 위한 보고 표준 제안
공정한 피드백을 보장하기 위한 프롬프트 설계 및 배포에 대한 실질적인 지침 제시
모든 모델이 아닌 일부 모델에서만 명시적인 성별 단서에 대한 민감성을 보임
제한된 수의 LLM 및 에세이 샘플을 사용
성별 외 다른 편향 요인에 대한 고려 부족
👍