본 연구는 할인된 마르코프 의사결정 과정의 오프라인 강화 학습에서 Q-함수에 대한 최대-플러스-선형 근사기를 적용하는 것을 고려합니다. 특히, 증명 가능한 수렴성을 갖는 새로운 적합 Q-반복(FQI) 알고리즘을 제안하기 위해 이러한 근사기를 통합합니다. 벨만 연산자와 최대-플러스 연산의 호환성을 활용하여, 제안된 FQI 알고리즘의 각 반복 내의 최대-플러스-선형 회귀가 단순한 최대-플러스 행렬-벡터 곱셈으로 축소됨을 보여줍니다. 또한, 샘플 수와 무관한 반복당 복잡도를 초래하는 제안된 알고리즘의 변분 구현을 고려합니다.