본 논문은 심층 강화 학습에서 행동 메트릭(특히, 비슷성 메트릭)을 관측 공간에서 근사하고 학습된 거리를 표현 공간에 임베딩하는 상태 추상화의 주요 접근 방식을 다룹니다. 이전 연구에서 보여진 것처럼 작업과 무관한 노이즈에 대한 강건성을 위해 유망하지만, 이러한 메트릭을 정확하게 추정하는 것은 이론과 실제 사이의 격차를 만드는 다양한 설계 선택을 필요로 하여 어려움이 있습니다. 이전 평가는 주로 최종 수익에 집중하여 학습된 메트릭의 품질과 성능 향상의 원인을 불분명하게 합니다. 심층 강화 학습에서 메트릭 학습이 어떻게 작동하는지 체계적으로 평가하기 위해, 다양한 설계 선택을 가진 등거리 임베딩으로 개념적으로 통합된 5가지 최근 접근 방식을 평가합니다. 다양한 노이즈 설정을 가진 370개의 작업 구성으로 구성된 20개의 상태 기반 작업과 14개의 픽셀 기반 작업에 걸쳐 기준선과 비교 벤치마킹합니다. 최종 수익 외에도, 인코더의 방해 요소 필터링 능력을 정량화하기 위해 잡음 제거 계수 평가를 도입합니다. 메트릭 학습의 효과를 더욱 분리하기 위해, 인코더가 메트릭 손실에 의해서만 영향을 받는 격리된 메트릭 추정 설정을 제안하고 평가합니다. 마지막으로, 재현성을 개선하고 심층 강화 학습에서 메트릭 학습에 대한 향후 연구를 지원하기 위해 오픈 소스 모듈식 코드베이스를 공개합니다.