Representation over Routing: Diagnosing Temporal Routing Pathologies in Multi-Timescale PPO

Author

Haebom

저자

Jing Sun

💡 개요

본 논문은 강화학습에서 여러 할인율을 가진 가치 추정을 사용하여 시간적 신용 할당 문제를 해결할 때, 액터가 동적으로 시간적 헤드를 라우팅하는 방식이 수치적 단축키로 작용하여 실제적인 제어 능력 향상으로 이어지지 않는다는 문제를 제기합니다. 특히, 미분 가능한 라우팅은 수치적으로 유리한 어드밴티지 헤드로 직접 기울기를 유도하는 '대리 목표 해킹'과, 짧은 시간 할인율 헤드가 쉬운 예측 표적으로 인해 과도한 라우팅 점유를 받는 '시간적 불확실성의 역설'을 진단합니다. 이를 해결하기 위해 액터는 긴 시간 할인율의 어드밴티지만 사용하여 업데이트하는 '타겟 디커플링' 방식을 제안하며, 이는 탐색 가능한 액터 측 라우팅 경로를 제거하고 최악의 시드 반환값을 개선하는 효과를 보였습니다.

🔑 시사점 및 한계

•

강화학습에서 다중 시간 스케일 가치 추정을 사용할 때, 단순한 동적 라우팅 메커니즘은 실제 문제 해결 능력보다는 수치적 이점에 집중하는 '대리 목표 해킹'을 유발할 수 있습니다.

•

불확실성 기반의 그래디언트 없는 라우팅 방식은 예측이 쉬운 짧은 시간 스케일 헤드에 편향될 수 있으며, 이는 장기적인 작업 성공과 반드시 일치하지 않는 '시간적 불확실성의 역설'을 야기합니다.

•

제안된 '타겟 디커플링'은 액터의 라우팅 경로를 구조적으로 제한하여 탐색 가능한 취약점을 제거하고 성능의 견고성을 높일 수 있지만, 모든 경우에 성능 향상을 보장하는 일반적인 방법론은 아니며, 제시된 실험에서는 특히 최악의 시드 반환값 개선에 초점을 맞추었습니다.

PDF 보기

Made with Slashpage