IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction

작성자

Haebom

카테고리

Empty

저자

Yandu Chen, Kefan Gu, Yuqing Wen, Yucheng Zhao, Tiancai Wang, Liqiang Nie

IntentionVLA: A Vision-Language-Action Framework for Human-Robot Interaction

개요

본 논문은 시각-언어-행동 (Vision-Language-Action, VLA) 모델의 한계를 극복하기 위해, 의도 추론, 공간적 연결, 그리고 간결한 구현 추론을 결합한 데이터로 사전 훈련을 진행하는 새로운 VLA 프레임워크인 IntentionVLA를 제안한다. 이 프레임워크는 복잡한 현실 세계 상호작용에 필요한 암묵적인 인간 의도 추론을 수행할 수 있도록 설계되었으며, 커리큘럼 훈련 방식과 효율적인 추론 메커니즘을 활용한다. IntentionVLA는 직접적인 지시뿐만 아니라, 간접적인 지시 하에서도 빠른 추론을 가능하게 하며, 특히 의도 기반의 지시에서 기존 모델들을 크게 능가하는 성능을 보인다. 또한, 새로운 의도 작업과 제로샷 인간-로봇 상호작용에서도 우수한 성능을 보여 차세대 인간-로봇 상호작용 시스템을 위한 유망한 패러다임을 제시한다.

시사점, 한계점

•

시사점:

◦

의도 추론 능력을 갖춘 VLA 모델의 개발을 통해 복잡한 인간-로봇 상호작용의 가능성을 제시.

◦

커리큘럼 훈련 방식을 사용하여 모델의 추론 및 인식 능력을 향상.

◦

효율적인 추론 메커니즘을 통해 간접적인 지시 하에서도 빠른 응답을 가능하게 함.

◦

다양한 테스트 환경 (직접 지시, 의도 지시, out-of-distribution 작업, 제로샷 상호작용)에서 우수한 성능 입증.

◦

차세대 인간-로봇 상호작용 시스템의 발전을 위한 새로운 방향 제시.

•

한계점:

◦

논문에서 구체적인 모델 구조나 구현 세부 사항에 대한 설명 부족 (예: 사용된 VLMs, 데이터셋의 구성 등).

◦

성능 비교에 사용된 baseline 모델의 수와 종류가 제한적일 수 있음.

◦

제로샷 상호작용의 성공률이 40%로, 실질적인 구현에는 추가적인 개선이 필요.

◦

실제 환경에서의 테스트 및 일반화 성능에 대한 추가 검증 필요.

PDF 보기

Made with Slashpage