본 논문은 로봇 조작에서 저수준 추론 능력을 평가하기 위한 새로운 벤치마크인 ManipBench를 제안합니다. Vision-Language Models (VLMs)이 로봇 조작에 있어 고수준 계획자로 주로 사용되지만, 최근 저수준 추론(정밀한 로봇 동작 결정) 능력에 대한 연구도 진행되고 있습니다. ManipBench는 객체 간 상호 작용 및 변형 가능한 객체 조작 등 다양한 측면에서 VLMs의 저수준 로봇 조작 추론 능력을 평가합니다. 10개 모델 계열의 33개 대표적인 VLMs를 벤치마크에서 광범위하게 테스트하여 모델 성능의 차이와 실제 조작 작업과의 상관관계를 분석하고, 현재 모델과 인간 수준의 이해 사이에 상당한 격차가 있음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
VLMs의 저수준 로봇 조작 추론 능력을 종합적으로 평가할 수 있는 새로운 벤치마크(ManipBench)를 제공합니다.
◦
다양한 VLMs의 성능을 비교 분석하고, 실제 작업과의 상관관계를 제시합니다.
◦
VLMs의 현재 기술 수준과 인간 수준의 차이를 명확히 보여줍니다.
•
한계점:
◦
ManipBench가 아직 초기 단계의 벤치마크이므로, 향후 더 많은 모델과 작업이 추가될 필요가 있습니다.
◦
벤치마크의 설계 및 평가 지표에 대한 추가적인 검토 및 개선이 필요할 수 있습니다.
◦
현재 벤치마크의 범위를 벗어나는 더 복잡한 로봇 조작 작업에 대한 평가가 추가로 필요합니다.