본 논문은 오프라인 데이터셋을 활용하여 표현력이 풍부한 정책을 온라인 강화학습(RL)으로 학습하고 미세 조정하는 문제를 다룹니다. 표현력이 풍부한 정책(확산 및 흐름 일치 정책 등)은 긴 잡음 제거 체인으로 매개변수화되어 안정적인 값 최대화에 어려움을 겪습니다. 이를 해결하기 위해, 본 논문은 표현력이 풍부한 정책으로 값을 직접 최적화하는 대신, Q-값을 최대화하는 온라인 RL 정책을 구성하는 방법을 제시합니다. 구체적으로, 안정적인 모방 학습 목표로 사전 훈련된 표현력이 풍부한 기본 정책과 가치 분포를 향상시키는 경량 가우시안 편집 정책을 사용하는 '표현력 있는 정책 최적화(EXPO)' 알고리즘을 제안합니다. EXPO는 기본 정책에서 샘플링된 행동을 학습된 편집 정책으로 최적화하고, 샘플링과 시간차(TD) 백업 모두에 대해 기본 및 편집된 행동 중 가치를 최대화하는 행동을 선택합니다.