본 논문은 6자유도 미세 조작에서 중요한 요소인 물체 방향을 고려하지 않는 기존 공간 추론의 한계를 지적합니다. 기존의 자세 표현 방식은 사전 정의된 프레임이나 템플릿에 의존하여 일반화 및 의미적 기반을 제한합니다. 이를 해결하기 위해 참조 프레임 없이 자연어를 사용하여 물체 방향을 정의하는 '의미적 방향' 개념을 제시합니다 (예: USB의 "플러그인" 방향, 컵의 "손잡이" 방향). 대규모 의미적 방향 주석 3D 객체 데이터셋 OrienText300K를 구축하고, 제로샷 의미적 방향 예측을 위한 일반 모델 PointSO를 개발했습니다. 의미적 방향을 VLM 에이전트에 통합하여 6자유도 공간 추론이 가능하고 로봇 동작을 생성하는 SoFar 프레임워크를 제시합니다. 실험 결과 Open6DOR에서 제로샷 48.7% 성공률, SIMPLER-Env에서 제로샷 74.9% 성공률을 달성하여 SoFar의 효과와 일반화 능력을 입증했습니다.
시사점, 한계점
•
시사점:
◦
참조 프레임 없이 자연어를 이용한 의미적 방향 표현으로 6자유도 미세 조작의 정확도 향상.
◦
대규모 의미적 방향 주석 데이터셋 OrienText300K 제공.
◦
제로샷 의미적 방향 예측 모델 PointSO 및 6자유도 공간 추론 프레임워크 SoFar 개발.