본 논문은 작은 트랜스포머 모델에서 특정 작업을 학습하는 데 필요한 최소 매개변수 수와 작업 난이도의 관계를 이해하고자 ListOps 데이터셋을 사용하여 연구를 진행했습니다. ListOps 데이터셋은 중첩된 수학 연산으로 구성되며, 새로운 연산이나 연산 조합을 추가하여 작업 난이도를 점진적으로 높였습니다. 연구 결과, sum modulo n 연산이 가장 어려운 것으로 나타났으며, 흥미롭게도 sum 연산은 maximum과 median 연산과 같이 다른 연산과 결합될 경우 학습이 쉬워지고 더 적은 매개변수를 필요로 한다는 것을 발견했습니다. 또한, 공동 학습은 성능 향상뿐 아니라 모델 동작에도 질적으로 다른 변화를 가져온다는 것을 보였습니다. SUM만 학습한 모델은 메모리에 의존하여 임베딩에서 숫자 구조를 포착하지 못하는 반면, SUM과 다른 연산을 혼합하여 학습한 모델은 임베딩 공간에서 숫자와 같은 표현과 강력한 패리티 구별 능력을 보였습니다. 마지막으로, MAX+MED에 사전 학습된 모델은 순수 SUM 학습 임계값 이하의 모델에서도 순수 SUM 학습을 유도할 수 있음을 보였습니다. 결론적으로, 언어 모델의 출현 능력은 모델 크기뿐 아니라 학습 커리큘럼에도 의존한다는 것을 시사합니다.