본 논문은 대규모 지시 튜닝 데이터 확장을 통해 향상된 지시 준수와 다양한 다운스트림 작업에서 뛰어난 성능을 보이는 파운데이션 언어 모델의 발전을 기반으로 한다. 3D 인체 동작을 이러한 파운데이션 모델에 통합하여 멀티 모달 이해 및 교차 모달 생성 능력을 향상시키려 한다. 그러나 인체 동작과 텍스트 간의 모달리티 격차로 인한 치명적인 망각 문제와 다양한 다운스트림 작업에서 일반화 성능을 유지하는 자기 회귀 호환 자세 표현 개발의 어려움이 존재한다. 이러한 문제를 해결하기 위해, MoE LoRA 전략을 기반으로 하는 통합 프레임워크인 HMVLM(Human Motion-Vision-Language Model)을 제안한다. HMVLM은 게이팅 네트워크를 활용하여 입력 프롬프트에 따라 LoRA 전문가 가중치를 동적으로 할당하고, 지시 튜닝 중 치명적인 망각을 완화하기 위해 사전 훈련된 일반 언어 작업 매개변수를 보존하는 제로 전문가를 도입한다. 자세 표현을 위해 신체 부위를 기반으로 인체 동작을 토큰화하여 표현의 공간 해상도를 향상시켰다. 실험 결과, 제안된 방법이 지시 튜닝 중 지식 망각을 효과적으로 완화하고 다양한 인체 동작 다운스트림 작업에서 뛰어난 성능을 달성함을 확인했다.