본 논문은 심층 강화 학습(DRL)을 사용한 로봇의 복잡한 행동 학습에서 나타나는 취약성과 비자연스러움 문제를 해결하기 위해, 전문가 시범 데이터셋으로부터 학습된 잠재 행동(latent action)을 유도적 편향(inductive bias)으로 활용하는 방법을 제안한다. 이 방법은 토크 제어 기반의 로봇 보행 학습에 특히 유용하며, 전문가의 행동에 담긴 지식을 직접 활용하여 효율적인 탐색을 가능하게 한다. 실험 결과, 제안된 방법은 전문가 시범의 보상 수준에 제한되지 않고, 전이 학습 성능을 크게 향상시키는 것으로 나타났다. 또한, 모방을 위한 스타일 보상과 함께 잠재 행동 사전 지식을 사용하면 전문가의 행동을 더욱 정확하게 복제할 수 있음을 보여준다.