신경과학에서 영감을 받은 과제로 훈련된 순환 신경망(RNN)은 뇌의 계산을 위한 강력한 모델을 제공합니다. 하지만 일반적인 훈련 패러다임은 개방 루프, 지도 학습 환경에 의존하는 반면, 실제 세계 학습은 폐쇄 루프 환경에서 전개됩니다. 본 연구에서는 폐쇄 루프 환경에서 훈련된 선형 RNN의 학습 역학을 설명하는 수학적 이론을 개발했습니다. 먼저 폐쇄 루프 또는 개방 루프 모드로 훈련된 두 개의 동일한 RNN이 현저하게 다른 학습 경로를 따른다는 것을 보여줍니다. 이러한 차이를 조사하기 위해 폐쇄 루프 케이스를 분석적으로 특징지어 훈련 손실의 진화와 정렬된 고유한 단계를 밝혀냈습니다. 특히, 개방 루프 RNN과 달리 폐쇄 루프 RNN의 학습 역학은 단기 정책 개선과 에이전트-환경 상호 작용의 장기 안정성이라는 두 가지 경쟁 목표의 상호 작용에 의해 지배된다는 것을 보여줍니다. 마지막으로, 우리의 프레임워크를 현실적인 운동 제어 작업에 적용하여 그 광범위한 적용 가능성을 강조합니다. 종합하면, 우리의 결과는 생물학적으로 타당한 환경에서 폐쇄 루프 역학을 모델링하는 중요성을 강조합니다.