Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Cross-Modal Distraction and Ensuring Geometric Feasibility via Affordance-Guided and Self-Consistent MLLMs for Task Planning in Instruction-Following Manipulation

Created by
  • Haebom

저자

Yu-Hong Shen, Chuan-Yu Wu, Yi-Ru Yang, Yen-Ling Tai, Yi-Ting Chen

개요

본 논문은 명령을 따르는 조작 환경에서 폐쇄 루프 작업 계획을 위해 문맥 내 학습을 사용하는 다중 모드 대형 언어 모델(MLLM)의 활용을 연구한다. 수량 추정, 접근성 분석, 상대적 위치 결정 및 충돌 회피의 네 가지 필수적인 작업 계획 요구 사항을 식별한다. 이러한 모든 측면에서 전체적인 평가를 지원하지 못하는 기존 벤치마크의 한계를 해결하기 위해, 저자들은 네 가지 과제를 모두 통합한 음식 준비 시나리오를 기반으로 하는 새로운 벤치마크인 QuARC(수량, 분석, 상대적 위치 결정, 충돌)를 소개한다. QuARC를 사용하여, 저자들은 현재 MLLM의 두 가지 주요 제한 사항, 즉 상호 모드 간 주의 분산과 기하학적 비현실성을 밝혀낸다. 이러한 문제를 해결하기 위해, 저자들은 상호 모드 간 주의 분산으로 인한 추론 손실을 완화하기 위해 Self-Consistency가 있는 사고의 연쇄(Chain-of-Thought)를 채택하고 기하학적 실현 가능성에 기반한 계획을 안내하기 위해 어포던스 예측기를 통합한다. 제안된 방법은 벤치마크에서 76.7%의 성공률을 달성하여 ViLa 기준선(36.7%)을 크게 능가하며, 추가 미세 조정이 필요하지 않다.

시사점, 한계점

시사점:
MLLM을 사용한 폐쇄 루프 작업 계획의 성공적인 수행에 필요한 핵심 요소 식별 (수량 추정, 접근성 분석, 상대적 위치 결정, 충돌 회피).
해당 요소들을 통합한 새로운 벤치마크(QuARC)의 개발.
MLLM의 두 가지 주요 한계점(상호 모드 간 주의 분산, 기하학적 비현실성) 제시.
Self-Consistency가 있는 사고의 연쇄 및 어포던스 예측기 도입을 통한 성능 향상.
ViLa 기준선 대비 상당한 성능 향상 (76.7% 성공률).
한계점:
특정 음식 준비 시나리오에 초점을 맞춘 QuARC 벤치마크의 일반화 가능성.
기존 MLLM의 근본적인 문제점(상호 모드 간 주의 분산, 기하학적 비현실성)의 완화에만 초점을 맞추고, 완벽한 해결책 제시 X.
성능 향상에 기여하는 개별 요소들의 영향력에 대한 추가적인 분석 필요.
👍