Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Inference-Time Policy Steering through Human Interactions

Created by
  • Haebom

저자

Yanwei Wang, Lirui Wang, Yilun Du, Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Perez-D'Arpino, Dieter Fox, Julie Shah

개요

인간의 시범 학습을 통해 훈련된 생성 정책은 다중 모드의 장기간 작업을 자율적으로 수행할 수 있습니다. 하지만 추론 과정에서 인간이 정책 실행 루프에서 제외되는 경우가 많아, 사전 훈련된 정책을 여러 예측 중 특정 하위 목표 또는 궤적 형태로 안내하는 능력이 제한됩니다. 단순한 인간 개입은 분포 이동을 악화시켜 제약 위반이나 실행 실패로 이어질 수 있습니다. 본 논문에서는 상호 작용 데이터에 대한 정책 미세 조정 대신 인간 상호 작용을 활용하여 생성 샘플링 과정에 편향을 주는 추론 시간 정책 조향(ITPS) 프레임워크를 제안하여 인간 의도와 정책 출력을 더 잘 정렬하고 분포 외 오류를 유발하지 않습니다. 세 가지 시뮬레이션 및 실제 벤치마크에서 세 가지 형태의 인간 상호 작용 및 관련 정렬 거리 측정 기준을 테스트하여 ITPS를 평가합니다. 여섯 가지 샘플링 전략 중 확산 정책을 사용한 제안된 확률적 샘플링이 정렬과 분포 이동 사이에서 최상의 절충안을 달성합니다. 비디오는 https://yanweiw.github.io/itps/ 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
인간 상호 작용을 통해 생성 정책의 출력을 효과적으로 조향하는 새로운 프레임워크(ITPS) 제시.
미세 조정 없이 인간의 의도를 반영하여 정책 출력을 개선하는 방법 제시.
확산 정책을 이용한 확률적 샘플링이 정렬과 분포 이동 사이 최적의 균형을 제공함을 실험적으로 증명.
다양한 실제 및 시뮬레이션 환경에서 성능 검증.
한계점:
제안된 방법이 모든 유형의 작업 및 상호 작용 방식에 대해 최적으로 작동하는지는 추가 연구 필요.
실제 환경에서의 범용성 및 확장성에 대한 추가적인 검증 필요.
특정 유형의 인간 상호 작용에 대해서만 평가되었으므로, 다른 유형의 상호 작용에 대한 일반화 가능성에 대한 추가 연구 필요.
👍