TNT는 딥 테스트 타임 메모리 모듈을 갖춘 RNN(예: Titans, TTT)의 훈련 속도와 정확성을 향상시키는 새로운 훈련 패러다임입니다. TNT는 두 단계로 구성됩니다. 첫 번째 단계는 계층적 메모리를 사용하여 대규모 하드웨어 친화적 청크를 처리하는 전역 모듈과 세부 정보를 처리하는 여러 병렬 로컬 모듈을 사용하는 효율성 중심의 사전 훈련 단계입니다. 로컬 메모리 상태를 주기적으로 재설정하여 순차적 종속성을 끊어 대규모 컨텍스트 병렬화를 가능하게 합니다. 두 번째 단계는 로컬 메모리 모듈만 작은 고해상도 청크 크기에 맞게 조정하는 짧은 미세 조정 단계로, 정확도를 최대화합니다. TNT는 Titans 및 TTT 모델에서 최대 17배의 훈련 속도 향상과 정확도 향상을 달성합니다.
시사점, 한계점
•
RNN 기반 모델(Titans, TTT)의 훈련 속도와 정확도를 향상시킴으로써 확장성 문제를 해결하고, Transformer 모델과의 격차를 줄이는 데 기여함.
•
두 단계 훈련 방식을 통해 효율성과 정확성 간의 trade-off를 해결하고, 대규모 컨텍스트 병렬화를 가능하게 함.