2월 23일(월)~28일(토), 6일 연속 에듀테크 웨비나 시리즈! 
자세히 보기
Sign In
에듀테크 오늘

AI를 성적 평가에 사용하는 것에 대한 고민

C
Contenjoo
Last modified
Date
Empty
1.
이해와 정성적 판단 능력 부족
GenAI는 훈련 데이터 패턴에 기반한 확률적 출력을 생성하며, 진정한 이해와 판단 능력이 부족함.
2.
성적 평가의 불일치와 편향
동일한 과제에 대해 점수가 크게 달라질 수 있어 공정성과 신뢰성이 훼손됨.
3.
사회적 편견과 차별 가능성
훈련 데이터에 포함된 편견이 모델에 반영되어 특정 그룹에 불이익을 줄 수 있음.
4.
형평성 격차 악화
AI 도구 접근성의 차이로 인해 성취도 격차가 커질 수 있음.
5.
교육 기관 간의 접근성 차이
더 강력한 모델을 사용할 수 있는 기관과 그렇지 않은 기관 간의 격차가 발생할 수 있음.
6.
진정한 이해 부족
AI는 훈련 데이터의 패턴에 기반한 출력만을 생성, 진정한 이해 없이 평가함.
7.
공정성, 책임성, 투명성 문제
AI 생성 성적의 객관성 외관이 격차를 가리고 공평한 평가를 방해할 수 있음.
8.
인간과 인공지능의 차이
AI는 인간 교육자의 판단과 전문성을 대체할 수 없으며, 이를 보조하는 데 집중해야 함.
9.
평가 방식 재고
성적 부여의 목적과 방법을 재고할 필요가 있으며, 학생들이 학습을 입증할 수 있는 다양한 방법을 모색해야 함.
생성형 AI(GenAI)는 평가 및 보고의 업무량을 줄일 수 있다는 점에서 매력적으로 보일 수 있습니다. 과거 중등 영어 교사, 고위 시험 평가자, 초기 교사 교육 강사로서 저는 GenAI를 사용하여 학생 작업을 채점하는 것의 매력을 이해합니다. 하지만 이 기술은 고부담 학생 평가에 근본적으로 부적합하다고 확신합니다.
GenAI는 기본적으로 훈련 데이터의 패턴에 기반한 확률적 출력을 생성하며, 진정한 이해와 정성적 판단 능력이 부족합니다. 이는 성적 평가의 불일치와 편향으로 이어져 공정성과 신뢰성에 대한 심각한 우려를 제기합니다. 동일한 9학년 설득 글쓰기 과제를 여러 번 ChatGPT에 입력했을 때, 학생 이름만 바꾸면 점수가 78점에서 95점까지 크게 달라졌습니다. 이러한 불일치는 성적 평가 과정의 공정성과 신뢰성을 완전히 훼손합니다.
더욱 우려되는 점은 GenAI 모델이 인터넷에서 수집한 방대한 데이터 세트를 기반으로 훈련되어 사회적 편견과 차별을 포함할 수 있다는 것입니다. 이 모델은 학생의 글쓰기를 기반으로 인종, 성별, 배경과 같은 학생의 속성을 추론하여 특정 그룹에 불이익을 줄 수 있습니다. 이러한 편견은 인간 채점자의 편견과 비교할 때 발견하고 해결하기가 훨씬 더 어렵습니다. 우리는 익명화와 중재와 같은 전략을 가지고 있지만, AI의 경우 단순히 학생의 이름을 제거하는 것만으로는 충분하지 않습니다. 편견은 훈련 데이터와 모델이 습득한 패턴을 기반으로 모델에 훨씬 더 깊은 수준으로 내재되어 있습니다.
AI를 성적 평가에 사용하는 것은 교육에서 기존의 형평성 격차를 악화시킬 가능성이 있습니다. AI 도구에 대한 접근성은 결코 평등하지 않습니다. 저소득층 가정의 학생은 기본적인 무료 AI 도구에 의존하는 반면, 부유한 배경의 학생은 GPT-4와 같은 고급 모델에 대한 구독료를 지불할 여유가 있습니다. 더 나은 AI 도구에 접근할 수 있는 학생은 높은 품질의 작업을 생성하고, 반복하고 개선할 수 있으며, 탐지 도구와 같은 것들을 활용할 때 시스템을 잠재적으로 이용할 수 있습니다. 시간이 지남에 따라 이는 성취도 격차를 악화시키고 특권을 강화할 수 있습니다.
학교, 대학, 교육자가 서로 다른 수준의 GenAI에 접근할 수 있다는 점도 고려해야 합니다. GPT-3.5와 비교하여 GPT-4로 평가되는 학생에게 어떤 일이 일어날지 생각해 보십시오. 지금까지 AI의 "편향 해소" 노력은 어느 정도 성공적이었을 뿐이며, 더 강력한 모델에 대해서만 성공적이었습니다. 예를 들어 GPT-4는 완벽하지는 않지만 GPT-3.5보다 편향이 적습니다. 따라서 더 강력한 모델을 사용할 수 있는 재정적, 기술적 자원을 가진 교육자나 기관은 더 정교하고 잠재적으로 편향이 적은 피드백을 제공할 것입니다.
근본적으로 언어 모델(LLM)을 사용하여 학생 작업을 평가하는 것은 프롬프트나 입력이 아무리 정교하더라도 문제가 있습니다. LLM은 진정한 추론이나 이해 능력 없이 훈련 데이터의 패턴에 기반한 확률적 출력을 생성합니다. 이는 입력에 세부적인 루브릭, 특정 채점 기준 또는 평가된 의견이 있는 샘플 학생 작업이 포함되어 있더라도 마찬가지입니다. 이러한 추가적인 맥락 요소는 LLM의 응답을 고정하고 더 설득력 있게 만드는 데 도움이 될 수 있지만, 궁극적으로 출력은 진정한 이해보다는 통계적 추론의 산물로 남아 있습니다.
AI의 고부담 평가 사용은 또한 공정성, 책임성, 투명성에 대한 우려를 제기합니다. 인간 채점자는 편견을 나타낼 수 있지만, 이를 인식하고 완화하도록 훈련할 수 있습니다. 반면에 LLM의 편견은 훈련 데이터와 아키텍처에 내재되어 있으며, 식별하고 해결하기가 더 어려울 수 있습니다. AI 생성 성적의 객관성 외관은 근본적인 격차를 가리고 공평한 평가를 보장하기 위한 노력을 방해할 수 있습니다.
학생 작업을 평가하기 위해 LLM을 사용하는 것은 인간과 인공지능의 근본적인 차이를 인식하지 못하는 기술의 오용입니다. 평가 과정을 자동화하려고 하기보다는 인간 교육자의 능력을 지원하고 향상시키는 데 AI를 활용하는 데 초점을 맞추어야 하며, 동시에 학생 학습 평가에서 인간의 판단과 전문성의 필수적인 역할을 보존해야 합니다.
우리는 애초에 왜 성적을 매기는지에 대해 의문을 제기하는 것부터 시작해야 합니다. 평가와 성적 부여는 단순히 경쟁, 순위 매기기, 배치의 문제입니까? 아니면 TEQSA가 최근 평가에서 AI 도구 사용과 관련하여 질문했듯이, 학생들이 학습을 입증할 수 있는 다른 방법과 교육자들이 학생들의 학습 여부를 평가할 수 있는 다른 방법이 있습니까?
적어도 생성형 AI는 우리에게 이러한 어렵고 때로는 불편한 대화를 하도록 강요하고 있습니다.
#ChatGPT #학생평가 #AI편향 #교육격차 #평가방식재고
Subscribe to '오늘배움'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to '오늘배움'!
Subscribe
👍
문의:
T: 070-8648-1580
E: contenjoo@learntoday.co.kr