본 논문은 리더와 팔로워가 순차적으로 상호 작용하는 스택켈버그 일반 합 게임에서 온라인 학습을 위한 새로운 프레임워크를 제시한다. 핵심은 공동 행동 공간을 스택켈버그 매니폴드라고 하는 매끄러운 구형 리만 매니폴드로 매핑하는 학습된 미분 동형 사상이다. 신경 정규화 흐름을 통해 이 매핑은 추적 가능한 등평면 하위 공간의 형성을 보장하여 온라인 학습을 위한 효율적인 기술을 가능하게 한다. 스택켈버그 매니폴드에서 에이전트의 보상 함수의 선형성을 활용하여 선형 밴딧 알고리즘을 적용할 수 있다. 학습된 매니폴드에서 후회 최소화를 위한 엄격한 이론적 근거를 제공하고 스택켈버그 평형 학습에 대한 단순 후회에 대한 경계를 설정한다. 이 매니폴드 학습과 게임 이론의 통합은 신경 정규화 흐름을 다중 에이전트 학습을 위한 효과적인 도구로 잠재력을 밝혀낸다. 사이버 보안 및 경제적 공급망 최적화와 같은 영역에서 응용 프로그램을 통해 표준 기준선과 비교하여 접근 방식의 효과를 입증하는 경험적 결과를 제시한다.