본 논문은 대규모 언어 모델(LLM), 특히 다중 모달 LLM(MLLM)을 활용하여 공유 환경에서의 인간 행동 예측을 수행하는 프레임워크를 제시합니다. 기존의 데이터 기반 방법들이 특정 도메인, 활동 유형, 예측 범위에 의존하는 것과 달리, 본 연구는 MLLM의 개방형 교차 도메인 일반화 능력을 활용하여 다양한 상황에서 인간 활동을 기술하고 예측하고자 합니다. MLLM 적용의 어려움으로 인풋 시퀀스 처리 용량의 한계, 프롬프트 설계에 대한 민감성, 그리고 비용이 많이 드는 미세 조정 등을 지적하며, 다양한 MLLM, 입력 변형, 상황 내 학습(ICL), 그리고 자기 회귀 기법을 벤치마킹할 수 있는 모듈형 다중 모달 인간 활동 예측 프레임워크를 제안합니다. 실험 결과, 최고 성능의 프레임워크 구성은 목표 프레임에서 인간 행동 예측에 대해 92.8%의 의미적 유사도와 66.1%의 정확한 레이블 정확도를 달성했습니다.