Lei Li, Sen Jia, Jianhao Wang, Zhongyu Jiang, Feng Zhou, Ju Dai, Tianfang Zhang, Zongkai Wu, Jenq-Neng Hwang
개요
LLaMo(Large Language and Human Motion Assistant)는 인간 동작 지시 조정을 위한 다중 모드 프레임워크입니다. 기존의 지시 조정 방식이 비언어적 입력(비디오 또는 동작 시퀀스)을 언어 토큰으로 변환하는 것과 달리, LLaMo는 지시 조정을 위해 동작을 원래 형태로 유지합니다. 이 방법은 토큰화 과정에서 손실되는 동작 특유의 세부 정보를 보존하여 모델의 복잡한 인간 행동 해석 능력을 향상시킵니다. 비디오 및 동작 데이터와 텍스트 입력을 함께 처리함으로써 LLaMo는 유연하고 인간 중심적인 분석을 가능하게 합니다. 인간 행동 및 전문 활동을 포함한 고복잡도 영역에 대한 실험 평가 결과, LLaMo는 영역 특정 지식을 효과적으로 포착하여 동작 집약적 시나리오에서 이해력과 예측력을 향상시키는 것으로 나타났습니다. LLaMo는 스포츠 분석부터 행동 예측까지 광범위한 응용 분야를 가진 미래의 다중 모드 AI 시스템의 기반을 제공할 것으로 기대됩니다. 코드와 모델은 프로젝트 웹사이트(https://github.com/ILGLJ/LLaMo)에서 이용 가능합니다.
시사점, 한계점
•
시사점:
◦
기존의 토큰화 방식의 한계를 극복하여 인간 동작의 세부 정보를 효과적으로 보존하고, 복잡한 행동 해석 능력 향상.
◦
다양한 영역(인간 행동, 전문 활동 등)에서의 고복잡도 동작 분석 및 예측 성능 향상.
◦
스포츠 분석, 행동 예측 등 다양한 분야에 적용 가능한 다중 모드 AI 시스템의 기반 마련.