Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating Multimodal Large Language Models with Daily Composite Tasks in Home Environments

Created by
  • Haebom

저자

Zhenliang Zhang, Yuxi Wang, Hongzhao Xie, Shiyun Zhao, Mingyuan Liu, Yujie Lu, Xinyi He, Zhenku Cheng, Yujia Peng

AGI의 복합 과제 수행 능력 평가

개요

본 논문은 인공 일반 지능(AGI)과 전통적인 AI의 차이점인 복합 과제 수행 능력을 탐구합니다. 다중 모달 대규모 언어 모델(MLLM) 기반의 구체화된 에이전트가 복합 과제를 해결할 수 있는지 여부를 평가하기 위해, 초기 아동 발달에서 관찰되는 일상 활동을 기반으로 한 복합 과제를 설계했습니다. 동적 시뮬레이션 환경에서 객체 이해, 공간 지능, 사회 활동의 세 가지 핵심 영역을 포함하는 과제를 통해, 17개의 주요 MLLM을 평가했습니다.

시사점, 한계점

시사점:
구체화된 에이전트의 일반적인 능력을 평가하기 위한 초기 프레임워크를 제시했습니다.
구체화된 MLLM 및 실제 활용 개발을 위한 중요한 첫걸음을 내디뎠습니다.
한계점:
현재 MLLM은 세 가지 핵심 영역 모두에서 일관적으로 낮은 성능을 보였습니다.
현재 능력과 일반 지능 요구 사항 간의 상당한 격차가 존재함을 보여주었습니다.
👍