Deep Double Q-learning

작성자

Haebom

카테고리

Empty

저자

Prabhat Nagarajan, Martha White, Marlos C. Machado

💡 개요

본 논문은 Q-learning의 과대평가 편향을 완화하는 Double Q-learning을 심층 강화학습에 적용한 Deep Double Q-learning(DDQL)을 제안합니다. DDQL은 두 개의 독립적인 Q 함수를 명시적으로 학습하고, 이를 통해 심층 강화학습에서 발생하는 과대평가 편향을 효과적으로 줄입니다. Atari 2600 게임 57개에 대한 실험 결과, DDQL은 Double DQN 대비 전반적인 성능을 향상시키며 47개 게임에서 더 나은 성과를 보였습니다.

🔑 시사점 및 한계

•

DDQL은 심층 강화학습에서 Q 함수 추정의 과대평가 편향을 효과적으로 완화하여 학습 안정성을 높이고 성능을 개선합니다.

•

두 개의 독립적인 Q 함수 학습과 추가적인 안정화 기법(낮은 리플레이 비율, 긴 타겟 네트워크 업데이트 간격, 공유 레이어)의 조합이 DDQL의 핵심적인 장점입니다.

•

논문은 심층 강화학습에 Double Q-learning을 적용할 때 네트워크 구조, 리플레이 비율, 미니배치 샘플링 전략 등 주요 설계 선택에 대한 연구를 수행했습니다.

PDF 보기

Made with Slashpage