본 논문은 다양한 모달리티(이미지, 텍스트, 3D SMPL 포즈)를 통해 인간 자세를 이해하고 생성하며 편집하는 범용 프레임워크인 UniPose를 제시합니다. UniPose는 대규모 언어 모델(LLM)을 활용하여 3D 포즈를 이산적인 포즈 토큰으로 변환하고, 통합된 어휘 내에서 LLM과의 원활한 통합을 가능하게 합니다. 또한, 포즈 특화 시각 인코더를 포함한 다양한 시각 인코더를 활용하여 세밀한 포즈 인식 능력을 향상시킵니다. 통합된 학습 전략을 통해 UniPose는 다양한 자세 관련 작업 간의 지식 전이, 미지의 작업에 대한 적응, 확장된 기능을 효과적으로 보여줍니다. 광범위한 실험을 통해 UniPose의 경쟁력 있고 우수한 성능을 다양한 자세 관련 작업에서 입증합니다.