Linear $Q$-Learning Does Not Diverge in $L^2$: Convergence Rates to a Bounded Set

작성자

Haebom

카테고리

비어 있음

저자

Xinyu Liu, Zixuan Xie, Shangtong Zhang

개요

본 논문은 선형 Q-학습의 L² 수렴 속도를 최초로 규명합니다. 기존 연구인 Meyn (2024)의 선형 Q-학습 반복의 거의 확실한 유계성 결과를 기반으로, 어떠한 알고리즘 수정이나 Bellman 완전성 가정, 또는 행동 정책의 준 최적성 가정 없이 적응적 온도를 갖는 ε-softmax 행동 정책 하에서 선형 Q-학습 반복의 L² 수렴 속도를 증명합니다. 핵심 분석은 빠르게 변화하는 전이 함수를 갖는 마르코프 잡음 하에서의 확률적 근사에 대한 일반적인 결과에 기반하며, 부수적으로 ε-softmax 행동 정책을 사용하는 표 형태 Q-학습의 L² 수렴 속도도 가중 Bellman 최적성 연산자의 새로운 유사 수축 특성을 이용하여 증명합니다.

시사점, 한계점

•

시사점: 선형 Q-학습의 수렴 속도에 대한 최초의 이론적 결과를 제공하여, 알고리즘의 안정성과 효율성에 대한 이해를 높입니다. ε-softmax 행동 정책 하에서의 수렴성을 보임으로써, 실제 적용 가능성을 높입니다. 표 형태 Q-학습에 대한 결과도 함께 제시합니다.

•

한계점: 분석이 ε-softmax 행동 정책에 의존하며, 다른 유형의 행동 정책에 대한 일반화는 추가 연구가 필요합니다. 실제 데이터셋에 대한 실험적 검증이 부족합니다. 수렴 속도의 정확한 상한과 하한에 대한 분석이 더 필요할 수 있습니다.

PDF 보기

Slashpage로 제작됨