Lei Li, Sen Jia, Wang Jianhao, Zhongyu Jiang, Feng Zhou, Ju Dai, Tianfang Zhang, Wu Zongkai, Jenq-Neng Hwang
개요
LLaMo (Large Language and Human Motion Assistant)는 인간 동작 지시 조정을 위한 다중 모드 프레임워크입니다. 기존의 지시 조정 방식이 비언어적 입력(비디오 또는 동작 시퀀스 등)을 언어 토큰으로 변환하는 것과 달리, LLaMo는 지시 조정을 위해 동작을 원형 그대로 유지합니다. 이 방법은 토큰화 과정에서 손실되는 동작 특유의 세부 정보를 보존하여 모델의 복잡한 인간 행동 해석 능력을 향상시킵니다. 비디오 및 동작 데이터와 텍스트 입력을 함께 처리함으로써 LLaMo는 유연하고 인간 중심적인 분석을 가능하게 합니다. 인간 행동과 전문적인 활동을 포함한 고복잡도 영역에 대한 실험적 평가는 LLaMo가 도메인 특유의 지식을 효과적으로 포착하여 동작 중심 시나리오에서 이해력과 예측력을 향상시킨다는 것을 보여줍니다. LLaMo는 스포츠 분석부터 행동 예측까지 광범위한 응용 분야를 가진 미래의 다중 모드 AI 시스템의 기반이 될 것으로 기대됩니다. 코드와 모델은 프로젝트 웹사이트(https://github.com/ILGLJ/LLaMo)에서 확인할 수 있습니다.
시사점, 한계점
•
시사점:
◦
기존의 토큰화 방식의 한계를 극복하여 동작 특유의 세부 정보를 보존함으로써 인간 행동 해석의 정확도 향상.
◦
비디오 및 동작 데이터와 텍스트 입력의 통합을 통한 유연하고 인간 중심적인 분석 가능.
◦
고복잡도 영역에서의 효과적인 도메인 특유 지식 습득 및 동작 중심 시나리오에서의 이해력 및 예측력 향상.