Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Context-Aware Human Behavior Prediction Using Multimodal Large Language Models: Challenges and Insights

Created by
  • Haebom

저자

Yuchen Liu, Lino Lerch, Luigi Palmieri, Andrey Rudenko, Sebastian Koch, Timo Ropinski, Marco Aiello

개요

본 논문은 대규모 언어 모델(LLM), 특히 다중 모달 LLM(MLLM)을 활용하여 공유 환경에서의 인간 행동 예측을 수행하는 프레임워크를 제시합니다. 기존의 데이터 기반 방법들이 특정 도메인, 활동 유형, 예측 범위에 의존하는 것과 달리, 본 연구는 MLLM의 개방형 교차 도메인 일반화 능력을 활용하여 다양한 상황에서 인간 활동을 기술하고 예측하고자 합니다. MLLM 적용의 어려움으로 인풋 시퀀스 처리 용량의 한계, 프롬프트 설계에 대한 민감성, 그리고 비용이 많이 드는 미세 조정 등을 지적하며, 다양한 MLLM, 입력 변형, 상황 내 학습(ICL), 그리고 자기 회귀 기법을 벤치마킹할 수 있는 모듈형 다중 모달 인간 활동 예측 프레임워크를 제안합니다. 실험 결과, 최고 성능의 프레임워크 구성은 목표 프레임에서 인간 행동 예측에 대해 92.8%의 의미적 유사도와 66.1%의 정확한 레이블 정확도를 달성했습니다.

시사점, 한계점

시사점:
MLLM을 활용한 인간 행동 예측의 가능성을 보여줌.
다양한 MLLM, 입력 변형, ICL, 자기 회귀 기법을 비교 분석하는 모듈형 프레임워크 제시.
높은 의미적 유사도와 정확한 레이블 정확도 달성.
한계점:
MLLM의 인풋 시퀀스 처리 용량 한계 및 프롬프트 설계에 대한 민감성 문제는 여전히 존재.
미세 조정 비용 문제는 해결되지 않음.
특정 데이터셋에 대한 평가 결과로 일반화 가능성에 대한 추가 연구 필요.
👍