본 논문은 심층 강화 학습(DRL) 알고리즘 구현의 일관성 문제를 다룬다. Deep Q-Network (DQN)과 Proximal Policy Optimization (PPO) 알고리즘 등 최첨단 DRL 알고리즘의 다양한 구현들이 존재하지만, 기존 연구들은 이러한 구현들이 동일한 알고리즘의 상호 교환 가능한 구현이라고 잘못 가정하는 경향이 있다. 본 연구는 차별적 테스트를 통해 DRL 알고리즘 구현 간의 불일치 정도, 성능에 미치는 영향, 그리고 상호 교환 가능하다는 가정 하에 이루어진 기존 연구의 결론에 대한 영향을 조사한다. 56개의 게임에서 5개의 PPO 구현을 테스트한 결과, 상당한 차이가 발견되었으며, 코드 수준의 불일치가 주요 원인임을 밝혔다. 또한, 구현의 상호 교환성 가정이 실험 결과를 뒤집기에 충분하다는 것을 실험 재현을 통해 보여주었다.