본 논문은 인간을 위한 인지 과제를 언어 모델 연구에 적용하는 과정에서 발생하는 해석의 어려움을 다룹니다. 특히, 모델의 성능 저하 원인이 인지 능력의 한계인지, 과제 이해 실패인지 불분명한 점을 지적합니다. Gong et al. (2024)의 연구에서 GPT 3.5의 2-back 및 3-back 과제 성능 저하를 인간과 유사한 작업 기억 용량 한계로 해석한 것에 대해, 다양한 성능 수준의 오픈 소스 언어 모델을 분석하여 성능 저하는 과제 이해 및 과제 집합 유지의 한계 때문임을 보여줍니다. 최고 성능 모델에 대해 난이도를 높인 과제(최대 10-back)와 다양한 프롬프트 전략을 사용하여 실험하고, 모델 어텐션을 분석합니다. 궁극적으로 언어 모델의 인지 평가 방법론 개선에 기여하고자 합니다.