[NLP]간단한 산수도 못하는 LLM?? : Jagged Intelligence of LLM
들어가며 chatgpt-4o, claude3.5 Sonnet과 같은 Frontier LLM들은 매우 복잡하고 어려운 과제들(창의력이 필요하거나, 복잡한 수학 계산이 필요한 일들)도 훌륭하게 해결해낼 수 있는 능력을 가지고 있습니다. 그러나 이러한 모델들이 10살 이하의 인간도 문제없이 해결할 수 있는 간단한 작업들도 하지 못한다면, 믿을 수 있나요? 테슬라와 OpenAI에서 AI를 연구했고, 지금은 AI 교육 사업을 펼치고 있는 안드레 카파시(Andrej Karpathy)는, 이러한 현상을 LLM의 Jagged Intelligence라고 표현했습니다. 9.9랑 9.11중에 뭐가 더 큰 숫자야? 이런 질문은 현재 한국 교육과정을 기준으로 초등학교 4학년을 마쳤다면 문제없이 풀 수 있습니다. 한번 이 문제에 대한 현 양대 산맥 LLM인 claude3.5 Sonnet과 gpt-4o의 대답을 볼까요? 와우! 두 모델 모두 9.11이 9.9보다 크다고 말하고 있군요. (이는 모델 학습 데이터에 산수에 대한 내용보다 소프트웨어의 버전에 대한 내용이 더 많아서 발생하는 일입니다! python3.11이 python3.9보다 나중에 나왔죠.) 또 다른 예시를 들어볼까요?
3
4