Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Intentional Gesture: Deliver Your Intentions with Gestures for Speech

Created by
  • Haebom

저자

Pinxin Liu, Haiyang Liu, Luchuan Song, Chenliang Xu

개요

본 논문은 인간의 제스처 생성을 의도 추론 과제로 재구성하는 새로운 프레임워크인 Intentional-Gesture를 제시합니다. 기존의 제스처 생성 방법들이 음성이나 텍스트 전사와 같은 표면적인 언어적 단서에만 의존하여 의미적으로 빈약한 결과를 생성하는 문제점을 해결하기 위해, 고차원적 의사소통 기능에 기반한 의도 추론을 통해 제스처를 생성합니다. BEAT-2 데이터셋에 제스처 의도 주석을 추가하여 InG 데이터셋을 구축하고, Intentional Gesture Motion Tokenizer를 이용하여 고차원적 의사소통 기능(의도)을 토큰화된 동작 표현에 통합함으로써 시간적으로 정렬되고 의미적으로 풍부한 제스처 합성을 달성합니다. BEAT-2 벤치마크에서 최첨단 성능을 달성하며, 디지털 휴먼 및 구현된 AI에서의 표현력 있는 제스처 생성을 위한 모듈식 기반을 제공합니다.

시사점, 한계점

시사점:
고차원적인 의도를 고려하여 의미적으로 풍부하고 시간적으로 일관된 제스처 생성 가능
BEAT-2 벤치마크에서 최첨단 성능 달성
디지털 휴먼 및 구현된 AI 분야에 적용 가능한 모듈식 프레임워크 제공
대규모 비전-언어 모델을 이용한 자동 주석 생성 방법 제시
한계점:
InG 데이터셋의 주석이 대규모 비전-언어 모델에 의존하여 주석의 정확성에 대한 검증 필요
현재 BEAT-2 데이터셋에 국한된 성능 평가, 다른 데이터셋으로의 일반화 가능성 검증 필요
의도의 다양성과 복잡성을 완벽하게 포착하는데 한계가 있을 수 있음
실제 인간의 자연스러운 제스처 생성과의 차이에 대한 추가적인 분석 필요
👍