본 논문은 Vision-Language-Action (VLA) 모델의 실세계 적용을 위한 신뢰할 수 있고 반복적으로 개선되는 로봇 시스템 구축에 초점을 맞추고 있습니다. 전문가 데모에 의존하는 VLA 모델의 한계를 극복하기 위해, 인간의 도움을 받는 행동 선호도 최적화 방법인 HAPO를 제안합니다. HAPO는 인간-로봇 협업 프레임워크를 통해 실패를 수정하고, 인간 개입을 통해 수집된 상호작용 경로를 활용하여 VLA 모델의 실패 행동 발생을 줄이고 수정 행동 적응을 향상시킵니다. 특히, 선호도 최적화를 VLA 모델에 도입할 때 발생하는 비가역적 상호작용 및 토큰 확률 불일치 문제를 해결하기 위한 적응적 가중치 재조정 알고리즘을 제시합니다. 시뮬레이션 및 실제 환경에서의 실험을 통해 다양한 조작 작업에서 HAPO의 우수한 일반화 및 견고성을 입증합니다.