본 논문은 언어 이해와 물리적 실행을 통합하는 휴머노이드 전신 제어를 위한 종단간(end-to-end) 언어-행동 모델인 SENTINEL을 제시한다. SENTINEL은 사전 훈련된 전신 컨트롤러를 사용하여 시뮬레이션에서 인간 동작을 추적하고 텍스트 주석을 결합하여 대규모 데이터 세트를 구축한다. 이 모델은 중간 표현 없이 언어 명령과 고유 수용성 입력을 저수준 동작에 직접 매핑한다. 또한, flow matching을 사용하여 동작 청크를 생성하고, 잔여 동작 헤드를 통해 실제 환경에 적용할 수 있도록 개선한다. SENTINEL은 시뮬레이션 및 실제 휴머노이드 로봇에서 강력한 의미 이해와 안정적인 실행을 보여주며, 입력을 텍스트로 변환하여 다중 모드 확장을 지원한다.