Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Unified Framework for Motion Reasoning and Generation in Human Interaction

Created by
  • Haebom
Category
Empty

저자

Jeongeun Park, Sungjoon Choi, Sangdoo Yun

개요

본 논문은 대규모 언어 모델(LLM)의 발전에도 불구하고, 여러 사람이 조정된 움직임을 하는 상호작용적인 인간과 같은 동작을 생성하고 이해하는 것이 여전히 어렵다는 점을 지적합니다. 이러한 문제를 해결하기 위해, 언어 및 동작 양식을 통합하여 다회차 대화 맥락에서 상호 작용적인 동작을 효과적으로 이해하고 생성하며 제어하는 다목적 상호 작용 동작-언어 모델(VIM)을 제안합니다. 기존 연구들이 주로 텍스트-동작 또는 동작-텍스트와 같은 단방향 작업에 집중한 것과 달리, VIM은 동작과 텍스트 양식을 동시에 이해하고 생성할 수 있는 통합 아키텍처를 사용합니다. 본 논문에서는 이러한 작업을 지원하기 위한 적절한 데이터셋이 없다는 점을 고려하여, 153,000개의 상호 작용 동작 샘플을 포함하는 82,700개의 다회차 상호 작용 동작 지시 사항으로 구성된 대규모 지시 조정 데이터셋인 Inter-MT2를 소개합니다. Inter-MT2는 동작 편집, 질문 답변, 스토리 생성 등 다양한 지시 시나리오를 포함하며, 기존의 대규모 언어 모델과 동작 확산 모델을 활용하여 광범위한 상호 작용 동작 지시 사항을 구성합니다. VIM의 다양성을 동작-텍스트, 텍스트-동작, 반응 생성, 동작 편집, 동작 시퀀스 추론 등 여러 상호 작용 동작 관련 작업에서 광범위하게 평가합니다.

시사점, 한계점

시사점:
다회차 대화 맥락에서 상호 작용적인 인간과 같은 동작을 생성하고 이해하는 문제에 대한 새로운 접근 방식을 제시합니다.
언어와 동작 양식을 통합한 통합 아키텍처를 통해 다양한 상호 작용 시나리오를 처리할 수 있는 다목적 모델을 구축했습니다.
다양한 상호 작용 동작 지시 사항을 포함하는 대규모 데이터셋 Inter-MT2를 공개하여 향후 연구에 기여합니다.
제시된 VIM 모델은 동작-텍스트, 텍스트-동작 등 다양한 작업에서 우수한 성능을 보입니다.
한계점:
Inter-MT2 데이터셋의 크기가 더욱 확장될 필요가 있습니다.
VIM 모델의 성능이 다양한 환경과 상황에 얼마나 일반화될 수 있는지에 대한 추가 연구가 필요합니다.
모델의 해석 가능성과 신뢰성에 대한 추가 연구가 필요합니다.
실제 세계의 복잡한 상호 작용을 완벽하게 반영하는 데에는 한계가 있을 수 있습니다.
👍