본 논문은 강화학습에서 행동-가치 함수의 효율적인 추정에 필요한 계산량과 데이터 요구량 문제를 해결하기 위해, 반복적인 벨만 연산자 적용을 통해 행동-가치 함수를 학습하는 새로운 방법인 Iterated Q-Network (i-QN)을 제시합니다. i-QN은 벨만 연산자를 여러 번 연속적으로 적용하여, 각 행동-가치 함수가 다음 함수의 타겟으로 사용되는 맞춤형 시퀀스를 학습합니다. 본 논문에서는 i-QN의 이론적 기반을 제시하고, 가치 기반 및 행위자-비평가 방법에 원활하게 적용될 수 있음을 보입니다. Atari 2600 게임과 MuJoCo 연속 제어 문제에서 i-QN의 장점을 실험적으로 증명합니다.