QuickLAP은 사용자의 물리적 행동과 언어적 피드백을 융합하여 실시간으로 보상 함수를 추론하는 베이지안 프레임워크입니다. LLM을 사용하여 언어 피드백에서 보상 특징 attention mask와 선호도 변화를 추출하고, 이를 물리적 피드백과 통합하여 빠르고 견고한 보상 학습을 가능하게 합니다. 반자율 주행 시뮬레이터에서 QuickLAP은 다른 방법론 대비 70% 이상 보상 학습 오류를 줄였으며, 사용자 연구에서 더 이해하기 쉽고 협력적이며 선호도가 높게 나타났습니다.