본 논문은 분포 강화학습(distributional reinforcement learning, RL)에서 분포 추정의 효율성을 높이기 위해 expectile과 quantile을 함께 학습하는 새로운 방법을 제안합니다. 기존 quantile regression 기반의 접근 방식은 비대칭 $L_1$ loss를 사용하지만, 효율성을 위해 비대칭 hybrid $L_1$-$L_2$ Huber loss를 사용하는 경우 분포 추정의 보장이 사라지고 분포가 평균으로 붕괴되는 문제가 발생합니다. 본 논문에서는 $L_2$-based 학습의 효율성을 활용하여 expectile과 quantile을 동시에 학습함으로써 효율적인 학습과 전체 분포 추정을 동시에 달성하는 방법을 제시합니다. 무한한 quantile과 expectile 분율의 극한에서 제안된 연산자가 분포 Bellman 연산자로 수렴함을 증명하고, 간단한 예시와 Atari 벤치마크를 통해 실험적으로 성능을 검증합니다. Atari 벤치마크 결과, 제안된 방법은 2억 프레임 학습 후 Huber 기반 IQN-1 baseline과 유사한 성능을 달성하면서 분포 붕괴를 방지하고 전체 분포 추정을 유지합니다.