Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Use of Artificial Intelligence Tools in Assessing Content Validity: A Comparative Study with Human Experts

Created by
  • Haebom
Category
Empty

저자

Hatice Gurdil, Hatice Ozlem Anadol, Yesim Beril Soguksu

개요

본 연구는 AI 평가자가 인간 평가자와 유사하게 B1 수준 영어 읽기 이해력 검사 문항의 내용 타당도를 평가하는지 여부를 조사하였다. 25개 문항의 객관식 검사를 개발하여 4명의 인간 평가자와 4명의 AI 평가자가 평가하였고, 인간 평가자와 AI 평가자의 점수 간에 통계적으로 유의미한 차이가 없었으며, 유사한 평가 경향을 보였다. 내용 타당도 비율(CVR)과 문항 내용 타당도 지수(I-CVI)를 계산하여 Wilcoxon 부호 순위 검정을 사용하여 분석한 결과, 통계적으로 유의미한 차이가 없었다. 일부 경우 AI 평가자가 인간 평가자를 대체할 수 있음을 시사하지만, 평가 기준 해석의 차이로 인한 특정 문항 평가의 차이가 발생할 수 있다는 점을 지적하였다. 평가 기준을 명확히 정의하고 언어적 명확성을 확보하는 것이 일관성 있는 평가에 기여할 수 있으며, AI 기술과 인간 전문가를 함께 활용하는 하이브리드 평가 시스템 개발을 제안하였다.

시사점, 한계점

시사점: AI 평가자가 인간 평가자와 유사하게 B1 수준 영어 읽기 이해력 검사 문항의 내용 타당도를 평가할 수 있음을 시사한다. 일부 경우 AI가 인간 평가자를 대체할 가능성을 보여준다. 하이브리드 평가 시스템 개발의 필요성을 제시한다.
한계점: 평가 기준 해석의 차이로 인해 AI와 인간 평가자 간 특정 문항 평가 결과의 차이가 발생할 수 있다. 평가 기준의 명확성 및 언어적 명확성 확보가 향후 연구의 중요 과제로 남는다. 다양한 수준의 영어 능력 및 다양한 유형의 평가 문항에 대한 추가 연구가 필요하다.
👍