본 논문은 시각 언어 모델(VLMs)의 제한된 능동적이고 상호작용적인 환경 이해 능력을 해결하기 위해, 언어로 안내되는 다양한 현실적인 환경에서의 과제 3000개 이상을 포함하는 EmRACE-3K 데이터셋을 제시합니다. EmRACE-3K는 탐색, 역동적인 공간-의미적 추론, 다단계 목표 달성 등의 측면에서 VLMs의 구현된 추론 능력을 평가하기 위한 벤치마크를 제공합니다. 기존 최첨단 모델들(GPT-4o, Claude 3.5 Sonnet, Gemini 2.5 Pro)은 제로샷 설정에서 20% 미만의 성공률을 보이며, 상호작용 환경에서 VLMs의 한계를 보여줍니다. 논문에서는 EmRACE-3K를 이용하여 Qwen2.5-VL-7B 모델을 지도학습과 강화학습으로 미세 조정하여 성능 향상을 달성함으로써 데이터셋의 유용성을 입증합니다.
시사점, 한계점
•
시사점:
◦
상호작용적인 환경에서 VLMs의 제한점을 명확히 보여주는 새로운 벤치마크인 EmRACE-3K 데이터셋을 제시.
◦
EmRACE-3K를 이용한 모델 미세 조정을 통해 구현된 추론 능력 향상 가능성을 보여줌.
◦
실제 세계와 유사한 복잡한 상호작용을 요구하는 과제를 통해 VLMs 연구의 새로운 방향 제시.
•
한계점:
◦
EmRACE-3K 데이터셋의 규모가 아직 충분히 크지 않을 수 있음. (3000개의 과제)
◦
Unreal Engine 환경에서 생성된 데이터셋이므로, 실제 세계 데이터와의 차이로 인한 일반화 성능 저하 가능성.
◦
현재 제시된 방법이 모든 종류의 VLMs에 일반적으로 적용될 수 있는지에 대한 추가 연구 필요.