본 논문은 시각 언어 모델(VLMs)을 개방형 세계 환경에서 구현된 의사결정에 적용하는 어려움을 해결하기 위해 시각-시간적 맥락 프롬프팅(visual-temporal context prompting)이라는 새로운 통신 프로토콜을 제안합니다. 기존의 계층적 에이전트 방식에서 VLMs는 언어를 사용하여 하위 작업으로 작업을 분해하지만, 언어는 상세한 공간 정보를 전달하는 데 한계가 있습니다. 본 논문에서 제안하는 방법은 과거 관찰 결과에서 얻은 객체 분할 정보를 활용하여 정책 모델과의 상호 작용을 안내합니다. 이를 통해 VLMs가 공간적 추론을 필요로 하는 복잡한 작업을 수행할 수 있도록 합니다. Minecraft 환경에서의 실험 결과, 제안된 방법을 사용한 ROCKET-1 에이전트는 기존 방법보다 개방형 세계 상호 작용 성능이 76% 향상되었습니다.
시사점, 한계점
•
시사점:
◦
시각-시간적 맥락 프롬프팅을 통해 VLMs의 공간적 추론 능력을 향상시켰습니다.
◦
Minecraft와 같은 복잡한 환경에서 새로운 수준의 작업 수행 능력을 달성했습니다.
◦
객체 분할과 추적 기술을 활용하여 VLMs와 저수준 정책 모델 간의 효과적인 통신을 가능하게 했습니다.
◦
76%의 상당한 성능 향상을 실험적으로 입증했습니다.
◦
코드와 데모를 공개하여 연구의 재현성을 높였습니다.
•
한계점:
◦
Minecraft 환경에 특화된 방법으로, 다른 환경으로의 일반화 가능성에 대한 추가 연구가 필요합니다.
◦
SAM-2와 같은 외부 객체 추적 모델에 의존하는 부분이 존재합니다. 이 모델의 성능이 ROCKET-1의 성능에 영향을 미칠 수 있습니다.
◦
시각-시간적 맥락 프롬프팅의 효율성 및 확장성에 대한 추가 분석이 필요합니다.
◦
특정 환경(Minecraft)에서의 성능 향상이 다른 환경에서도 동일하게 적용될 수 있는지에 대한 검증이 필요합니다.