본 논문은 고차원 자유도(DoF)와 비선형 역학으로 인해 실제 휴머노이드 로봇에서 숙련된 전신 동작을 구현하는 데 어려움이 있음을 지적하며, 이를 해결하기 위해 시뮬레이션-실제 강화학습(RL)과 궤적 최적화를 통합한 적응형 동작 최적화(AMO) 프레임워크를 제안합니다. AMO는 모션 모방 RL에서의 분포 편향을 완화하기 위해 하이브리드 데이터셋을 구축하고, OOD 명령어에도 강건하게 적응할 수 있는 네트워크를 훈련합니다. 29-DoF Unitree G1 휴머노이드 로봇을 이용한 시뮬레이션 및 실제 실험을 통해 기존 방법보다 향상된 안정성과 확장된 작업 공간을 보여주며, 모방 학습을 통한 자율적인 작업 실행 가능성을 입증합니다.