본 논문은 교사의 교육 실천에 GenAI의 활용이 증가함에 따라, 교육적 목적으로 대규모 언어 모델(LLM)의 편향을 측정하기 위한 임베딩 기반 벤치마킹 프레임워크를 제시한다. AES 2.0 코퍼스에서 수집된 600개의 실제 학생 에세이를 사용하여, (i) 어휘 기반의 성별 관련 용어 교체를 통한 암시적 단서, (ii) 프롬프트 내 저자 배경의 성별 관련 단서를 통해 제어된 반사실적 상황을 구성했다. 6개의 대표적인 LLM(GPT-5 mini, GPT-4o mini, DeepSeek-R1, DeepSeek-R1-Qwen, Gemini 2.5 Pro, Llama-3-8B)을 대상으로, 문장 임베딩의 코사인 및 유클리드 거리를 사용하여 응답 발산 정도를 정량화하고, 순열 검정을 통해 유의미성을 평가했으며, 차원 축소를 통해 구조를 시각화했다. 모든 모델에서, 암시적 조작은 남성-여성 반사실적 상황에서 여성-남성 반사실적 상황보다 더 큰 의미적 변화를 유발했다. GPT 및 Llama 모델만 명시적 성별 단서에 민감하게 반응했다. 이러한 결과는 최첨단 LLM조차 성별 치환에 비대칭적인 의미적 응답을 보이며, 학습자에게 제공하는 피드백에 지속적인 성별 편향이 존재함을 시사한다. 정성적 분석을 통해 일관된 언어적 차이(예: 남성 단서 하에서는 더 자율성을 지원하는 피드백, 여성 단서 하에서는 더 통제적인 피드백)가 밝혀졌다.