AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots
Created by
Haebom
Category
Empty
저자
Zhaxizhuoma Zhaxizhuoma, Pengan Chen, Ziniu Wu, Jiawei Sun, Dong Wang, Peng Zhou, Nieqing Cao, Yan Ding, Bin Zhao, Xuelong Li
개요
AlignBot은 가정용 로봇을 위한 VLM 기반 맞춤형 작업 계획을 사용자의 알림과 효과적으로 정렬하도록 설계된 새로운 프레임워크입니다. 제한적이고 다양하며 다중 모달인 가정 환경의 사용자 알림의 특성을 고려하여, AlignBot은 GPT-4o를 위한 어댑터 역할을 하는 미세 조정된 LLaVA-7B 모델을 사용합니다. 이 어댑터 모델은 개인화된 선호도, 수정 지침, 상황별 지원과 같은 다양한 형태의 사용자 알림을 구조화된 지침 형식의 큐로 변환하여 GPT-4o가 맞춤형 작업 계획을 생성하도록 유도합니다. 또한 AlignBot은 GPT-4o에 대한 프롬프트로 작업 관련 과거 성공 사례를 선택하는 동적 검색 메커니즘을 통합하여 작업 계획 정확도를 더욱 향상시킵니다. 실제 가정 환경을 모방하여 실험실에서 구축된 실제 가정 환경에서 실험을 수행하여 AlignBot의 효과를 검증했습니다. 자원봉사자의 알림에서 파생된 1,500개 이상의 항목으로 구성된 다중 모달 데이터 세트를 훈련 및 평가에 사용했습니다. 결과는 AlignBot이 사용자 알림을 해석하고 정렬하여 기존의 LLM 및 VLM 기반 플래너보다 맞춤형 작업 계획을 크게 개선하며, 21.6%인 일반 GPT-4o 기준선에 비해 86.8%의 성공률을 달성하여 65% 향상 및 4배 이상의 효율성을 보여줍니다. 보충 자료는 https://yding25.com/AlignBot/ 에서 확인할 수 있습니다.