GPT로 수학 연습하니 정답률이 127% 올랐다. 그런데 시험 치니 17% 떨어졌다 — OECD 보고서가 밝힌 'AI 학습의 역설'
OECD Digital Education Outlook 2026 핵심 인사이트 정리 생성형 AI를 쓰면 공부를 더 잘하게 될까요? OECD가 2026년 3월 발간한 「OECD Digital Education Outlook 2026: Exploring Effective Uses of Generative AI in Education」은 이 질문에 대해 "그렇게 단순하지 않다"고 답합니다. OECD 교육혁신연구센터(CERI)가 전 세계 실증 연구, 설계 실험, 전문가 인터뷰를 종합한 이 플래그십 보고서의 핵심 메시지는 이렇습니다. 생성형 AI는 교육을 근본적으로 개선할 수 있다. 단, "어떻게 쓰느냐"에 따라 학습을 해칠 수도 있다. 보고서 전체를 관통하는 핵심 인사이트를 정리했습니다. 과제 점수는 올랐는데 실력은 떨어지는 "성과-학습 불일치" 현상 보고서에서 가장 충격적인 연구는 튀르키예에서 1,000명의 고등학생(9~11학년)을 대상으로 진행된 무작위 통제 실험(RCT)입니다. 학생들은 세 그룹으로 나뉘어 6회(각 90분)에 걸쳐 수학 연습을 진행했습니다. 그룹 1: 교과서와 노트만으로 독학 그룹 2: 범용 GPT-4 챗봇(GPT Base) 사용 그룹 3: 교육용으로 설정된 GPT-4 챗봇(GPT Tutor) 사용 연습 중 정답률은 GPT Base 그룹이 독학 대비 48% 높았고, GPT Tutor 그룹은 무려 127% 높았습니다. 그런데 AI 없이 치른 시험에서는 어떻게 됐을까요? GPT Base 그룹은 독학 그룹보다 오히려 17% 낮은 점수를 받았습니다. GPT Tutor 그룹도 독학 그룹과 비슷한 수준에 머물렀습니다. OECD는 이를 "성과와 학습의 불일치(misalignment between task performance and genuine learning)"라고 설명합니다. AI가 답을 대신해 주니 연습 성적은 좋아지지만, 학생 스스로 생각하는 인지적 노력이 생략되면서 실제 지식 습득이 일어나지 않는 것입니다. 이 현상은 뇌과학 연구로도 확인됩니다. 미국 5개 대학 학생들에게 에세이를 쓰게 한 실험에서, ChatGPT를 활용한 학생 중 12%만이 1시간 뒤 자기가 쓴 내용을 기억한 반면, 직접 쓴 학생들은 89%가 기억했습니다. 뇌 영상 분석 결과, AI 사용 그룹은 콘텐츠를 '생성'하는 것이 아니라 AI 출력을 '감독'하는 쪽으로 뇌 활동이 전환되었으며, 신경 연결성과 참여도가 현저히 낮았습니다.
- ContenjooC

1



