본 논문은 결과 기반 피드백을 사용하는 강화 학습에서의 중요한 과제, 즉 보상이 시퀀스의 끝에서만 관측될 때 어떻게 적절한 행동에 대한 공을 돌릴 것인가를 다룹니다. 일반적인 함수 근사를 사용하는 온라인 강화 학습에서 이 문제에 대한 최초의 포괄적인 분석을 제공합니다. 본 논문은 $\widetilde{O}({C_{\rm cov} H^3}/{\epsilon^2})$의 표본 복잡도를 달성하는, 증명 가능하게 표본 효율적인 알고리즘을 개발합니다 (여기서 $C_{\rm cov}$는 기저 MDP의 덮을 수 있는 계수). 일반적인 함수 근사를 활용함으로써, 표 형식 방법이 실패하는 크거나 무한한 상태 공간에서도 효과적으로 작동하며, 가치 함수와 보상 함수를 적절한 함수 클래스로 표현할 수 있다면 충분합니다. 또한 결과 기반 피드백이 단계별 보상과 통계적으로 분리되는 경우를 특징짓고, 특정 MDP에 대해 불가피한 지수적 분리를 보여줍니다. 결정적 MDP의 경우, 완전성 가정을 제거하는 방법을 보여주어 알고리즘을 크게 단순화합니다. 더 나아가, 선호도 기반 피드백 설정으로 접근 방식을 확장하여 더 제한적인 정보 하에서도 동등한 통계적 효율을 달성할 수 있음을 증명합니다. 이러한 결과는 결과 기반 강화 학습의 통계적 특성을 이해하기 위한 이론적 토대를 구성합니다.