Share
Sign In

Blog

박상현
평가원이 지문 난이도를 조절하는 방법 (11.13.)
이 글은 2024년 11월 13일 (수능 전일) 포만한 수학연구소에 게시된 아드바크의 칼럼을 옮긴 것입니다. 원본 링크 ​ 1. 수능영어 독해 지문의 난이도를 조절하는 방법은 주제를 어렵게 하는 것과 논리구조를 어렵게 하는 것, 두 가지로 구분된다. 2. 두 가지는 원래 독립변수다. 즉, 주제의 난이도가 같더라도 논리구조를 어렵게 만들 수도 있고, 논리구조가 같더라도 주제를 어렵게 가져갈 수도 있다. 3. 평가원은 두 방식을 각각 또는 동시에 사용하며, 6평과 9평에서 항상 두 가지를 모두 실험해보는 경향이 나타난다. 그런데 작년에 비해 올해는 주제의 낯섦에 대한 학생들의 반응이 특히 민감했다. 따라서 올해 수능에서 평가원은 정답률 40%대의 적당한 빈칸 문제를 낼 때 논리구조를 어렵게 하는 대신 주제를 쉽게 가져가거나(9평 34번), 주제를 어렵게 하는 대신 논리구조를 쉽게 가져갈 가능성이 크다(6평 33번). 즉 둘다 어렵게 내긴 쉽지 않을 것. 결론은 수능에서, 주제가 너무 어렵다면, 논리구조가 이해할 수 있는 수준으로 나올 것이니 찬찬히 한 문장씩 의미 변화를 따라가며 읽으시면 되고, 논리구조가 복잡한 지문은 그래도 이해할 수 있는 주제로 나올 확률이 높으니 너무 걱정하지 말고 본 실력대로 잘 보고 오시기 바랍니다. 화이팅! 분석의 근거는 다음과 같습니다. 우선 이번 6평 32번과 34번입니다. 딥러닝 모델을 활용해 두 지문의 논리구조를 분석해볼까요? 아드바크의 AI는 각 문장의 논리구조를 대표하는 특성을 추출하여 이를 3차원으로 축소시킨 뒤 시각화합니다. 아래 그래프는 각각 32번과 34번 문제에서 문장별 의미 변화를 나타낸 것으로, 두 문제 모두 유사한 논리구조를 보이고 있습니다. (왼쪽은 32번 문제, 오른쪽은 34번 문제) 이는 두 문제의 문장간 논리 구조가 거의 비슷함을 의미합니다. (통념/반박 구조라고 보통 부르는 그것이죠) 그러나, 오답률에는 큰 차이가 있었습니다. 32번 문제: 오답률 55% (주제: 창의성에서 유용함의 중요성)
박상현
ChatGPT는 왜 선지를 못 쓸까?
ChatGPT로 선지를 쓴다는 것 선지를 쓰는 일은 문항 제작의 정수입니다. 좋은 선지는 명확히 지문에 근거해 틀린 선지라고 유추할 수 있어야 하지만, 그렇다고 너무 쉬우면 문제를 푸는 의미가 없어지니까요. 그래서 좋은 선지를 쓰는 사람이 곧 좋은 문항을 만드는 사람이라고도 할 수 있습니다. 그런데 ChatGPT로 선지를 써보셨다면, 다음과 같은 경험을 분명 해보셨을 거에요. 지문의 문장을 paraphrasing한 것에 불과한 너무 쉬운 선지 정답 선지와 길이와 문장구조가 맞지 않는 선지 상식 선에서 쉽게 거를 수 있는 선지 우리나라 수능의 출제기조를 전혀 반영하지 못하는 선지 다양한 아이디어를 제공하지 못하고, 비슷한 내용만 반복하는 선지 이런 문제들은 아무리 프롬프팅을 해봐도 해결되지 않는 경우가 많죠. 왜 이런 일이 일어나는 걸까요? 그리고 큐파일럿은 이를 어떻게 해결했을까요? 논리적 오류가 있는 글을 쓰는 것을 어려워하는 ChatGPT 이 문제를 이해하려면 ChatGPT가 어떻게 훈련되었는지부터 이해해야 합니다. ChatGPT는 트랜스포머 기반의 LLM인 GPT-3를 RLHF라는 훈련 방식을 거쳐 챗봇으로 만든 모델입니다. RLHF란 Reinforcement Learning from Human Feedback의 약자로 사람이 모델의 생성 결과를 평가한 데이터를 바탕으로 LLM을 추가로 학습시키는 것입니다. 예를 들어, 친절한 답변과 불친절한 답변이 있다면 친절한 답변에 평가자는 일반적으로 높은 점수를 줄 겁니다. 모델은 이를 학습해 더 친절한 답변을 생성하게 되는 것이죠.
👍😀
8
Made with SlashPage