본 논문은 인간형 로봇의 전신 이동과 숙련된 조작을 통합하는 인간형 로코-조작(loco-manipulation) 문제를 다룬다. 기존 연구들이 이동 또는 조작 중 하나에만 집중한 것과 달리, 본 논문은 기초 모델의 다중 모드 표현 및 추론 능력을 활용하여, 고차원 인간 명령을 전신 액션 추론, 공간 추론, 여유 공간 분석을 통해 이동 및 조작 기본 동작의 구조화된 시퀀스로 분해하는 체화된 행동 연쇄(Embodied Chain-of-Action, CoA) 메커니즘을 제안한다. Unitree H1-2와 G1 로봇을 이용한 실험 결과, 제안된 Humanoid-COA 프레임워크는 다양한 조작, 이동, 로코-조작 작업에서 기존 기준 모델보다 뛰어난 성능을 보이며, 장기간 및 비구조화된 시나리오에 대한 강력한 일반화 능력을 입증했다.