본 논문은 대규모 언어 모델(LLM)의 발전에도 불구하고, 여러 사람이 조정된 움직임을 하는 상호작용적인 인간과 같은 동작을 생성하고 이해하는 것이 여전히 어렵다는 점을 지적합니다. 이러한 문제를 해결하기 위해, 언어 및 동작 양식을 통합하여 다회차 대화 맥락에서 상호 작용적인 동작을 효과적으로 이해하고 생성하며 제어하는 다목적 상호 작용 동작-언어 모델(VIM)을 제안합니다. 기존 연구들이 주로 텍스트-동작 또는 동작-텍스트와 같은 단방향 작업에 집중한 것과 달리, VIM은 동작과 텍스트 양식을 동시에 이해하고 생성할 수 있는 통합 아키텍처를 사용합니다. 본 논문에서는 이러한 작업을 지원하기 위한 적절한 데이터셋이 없다는 점을 고려하여, 153,000개의 상호 작용 동작 샘플을 포함하는 82,700개의 다회차 상호 작용 동작 지시 사항으로 구성된 대규모 지시 조정 데이터셋인 Inter-MT2를 소개합니다. Inter-MT2는 동작 편집, 질문 답변, 스토리 생성 등 다양한 지시 시나리오를 포함하며, 기존의 대규모 언어 모델과 동작 확산 모델을 활용하여 광범위한 상호 작용 동작 지시 사항을 구성합니다. VIM의 다양성을 동작-텍스트, 텍스트-동작, 반응 생성, 동작 편집, 동작 시퀀스 추론 등 여러 상호 작용 동작 관련 작업에서 광범위하게 평가합니다.