Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Robotic Policy Learning via Human-assisted Action Preference Optimization

Created by
  • Haebom

저자

Wenke Xia, Yichu Yang, Hongtao Wu, Xiao Ma, Tao Kong, Di Hu

개요

본 논문은 Vision-Language-Action (VLA) 모델의 실세계 적용을 위한 신뢰할 수 있고 반복적으로 개선되는 로봇 시스템 구축에 초점을 맞추고 있습니다. 전문가 데모에 의존하는 VLA 모델의 한계를 극복하기 위해, 인간의 도움을 받는 행동 선호도 최적화 방법인 HAPO를 제안합니다. HAPO는 인간-로봇 협업 프레임워크를 통해 실패를 수정하고, 인간 개입을 통해 수집된 상호작용 경로를 활용하여 VLA 모델의 실패 행동 발생을 줄이고 수정 행동 적응을 향상시킵니다. 특히, 선호도 최적화를 VLA 모델에 도입할 때 발생하는 비가역적 상호작용 및 토큰 확률 불일치 문제를 해결하기 위한 적응적 가중치 재조정 알고리즘을 제시합니다. 시뮬레이션 및 실제 환경에서의 실험을 통해 다양한 조작 작업에서 HAPO의 우수한 일반화 및 견고성을 입증합니다.

시사점, 한계점

시사점:
VLA 모델의 실세계 적용을 위한 신뢰성 향상 및 실패로부터의 학습 가능성 제시.
인간-로봇 협업을 통한 효과적인 실패 수정 및 적응 학습 방법 제시.
적응적 가중치 재조정 알고리즘을 통해 선호도 최적화 과정의 문제점 해결.
다양한 조작 작업에서 우수한 일반화 성능 및 견고성 입증.
한계점:
현재 제시된 실험 환경의 범위가 제한적일 수 있음. (구체적인 환경 및 작업 종류에 대한 정보 부족)
인간 개입의 양과 질에 따라 성능이 크게 달라질 수 있음. (인간 개입의 표준화 및 효율성에 대한 추가 연구 필요)
알고리즘의 계산 복잡도 및 실시간 성능에 대한 분석 부족.
다양한 유형의 실패에 대한 일반화 성능 평가 필요.
👍