본 논문은 정규화 흐름(normalizing flows)을 사용하여 수익 분포를 모델링하는 분포 강화 학습(DistRL)을 위한 새로운 아키텍처를 제시합니다. 이 접근 방식은 C51과 같이 고정되거나 제한된 표현에 의존하는 범주형 접근 방식과 달리, 수익 분포에 대해 유연하고 무한한 지지를 가능하게 합니다. 또한, 분위수 기반 접근 방식보다 다중 모드, 비대칭, 꼬리 동작을 포착하는 더 풍부한 모델링 용량을 제공합니다. 본 논문의 방법은 범주형 접근 방식보다 매개변수 효율성이 훨씬 뛰어납니다. 기존 모델을 훈련하는 데 사용되는 KL 발산 또는 Wasserstein 거리와 같은 표준 지표는 특히 수익 지원이 겹치지 않는 경우 척도에 민감하지 않거나 편향된 샘플 기울기를 갖습니다. 이를 해결하기 위해, 본 논문은 기하학적으로 인식 가능하고 수익 분포의 PDF에서 직접 계산할 수 있으며 비용이 많이 드는 CDF 계산을 피하는 Cramér 거리에 대한 새로운 대체 지표를 제안합니다. ATARI-5 하위 벤치마크에서 모델을 테스트한 결과, 본 논문의 접근 방식이 PDF 기반 모델보다 우수한 성능을 보이는 동시에 분위수 기반 방법과 경쟁력을 유지하는 것으로 나타났습니다.