Inference-Time Policy Steering through Human Interactions
Created by
Haebom
저자
Yanwei Wang, Lirui Wang, Yilun Du, Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Perez-D'Arpino, Dieter Fox, Julie Shah
개요
인간의 시범 학습을 통해 훈련된 생성 정책은 다중 모드의 장기간 작업을 자율적으로 수행할 수 있습니다. 하지만 추론 과정에서 인간이 정책 실행 루프에서 제외되는 경우가 많아, 사전 훈련된 정책을 여러 예측 중 특정 하위 목표 또는 궤적 형태로 안내하는 능력이 제한됩니다. 단순한 인간 개입은 분포 이동을 악화시켜 제약 위반이나 실행 실패로 이어질 수 있습니다. 본 논문에서는 상호 작용 데이터에 대한 정책 미세 조정 대신 인간 상호 작용을 활용하여 생성 샘플링 과정에 편향을 주는 추론 시간 정책 조향(ITPS) 프레임워크를 제안하여 인간 의도와 정책 출력을 더 잘 정렬하고 분포 외 오류를 유발하지 않습니다. 세 가지 시뮬레이션 및 실제 벤치마크에서 세 가지 형태의 인간 상호 작용 및 관련 정렬 거리 측정 기준을 테스트하여 ITPS를 평가합니다. 여섯 가지 샘플링 전략 중 확산 정책을 사용한 제안된 확률적 샘플링이 정렬과 분포 이동 사이에서 최상의 절충안을 달성합니다. 비디오는 https://yanweiw.github.io/itps/ 에서 확인할 수 있습니다.