본 논문은 거시경제 결과가 개인의 의사결정에서 비롯된다는 점을 고려하여, 정부의 정책과 소비, 투자, 노동 선택을 통해 상호 작용하는 에이전트를 모델링하는 방법을 제시한다. 정부(리더)가 정책을 설정하고 에이전트(추종자)가 시간에 따라 행동을 최적화하는 동적 Stackelberg 게임으로 공식화하여, 정책 설계에 중요한 시간적 의존성과 전략적 피드백을 포착한다. 에이전트 수 증가에 따른 계산 비용 문제를 해결하기 위해, 에이전트-개체군 및 정부-개체군 결합을 통해 복잡한 상호 작용을 근사하는 Dynamic Stackelberg Mean Field Game (DSMFG) 프레임워크를 제안한다. 이를 통해 개별 수준의 피드백을 유지하면서 확장성을 보장하고, 동적 피드백, 비대칭성, 대규모라는 세 가지 핵심 특징을 동시에 모델링한다. 또한, 개별 에이전트에 대한 개인화된 반응을 유지하면서 리더의 최적 정책을 학습하는 데이터 기반 알고리즘인 Stackelberg Mean Field Reinforcement Learning (SMFRL)을 소개한다. 대규모 시뮬레이션 경제에서의 실증 결과를 통해, 기존 연구(100 에이전트)보다 1,000 에이전트까지 확장 가능하며, 기존 경제학적 방법 대비 GDP를 4배, 2022년 미국 연방 소득세 정책 대비 19배 향상시키는 결과를 보였다.