본 논문은 결과 기반 피드백을 사용하는 강화 학습에서의 중요한 문제, 즉 보상이 궤적의 끝점에서만 관측될 때 어떻게 올바른 행동에 대한 공로를 할당할 것인가를 다룬다. 일반적인 함수 근사를 사용하는 온라인 강화 학습 환경에서 이 문제에 대한 최초의 포괄적인 분석을 제공한다. 본 논문은 $\widetilde{O}({C_{\rm cov} H^3}/{\epsilon^2})$의 샘플 복잡도를 달성하는, 증명 가능하게 샘플 효율적인 알고리즘을 개발한다. 여기서 $C_{\rm cov}$는 기저 MDP의 커버 가능성 계수이다. 일반적인 함수 근사를 활용함으로써, 표 형태의 방법이 실패하는 크거나 무한한 상태 공간에서도 효과적으로 작동하며, 값 함수와 보상 함수가 적절한 함수 클래스로 표현될 수 있다면 충분하다. 또한 결과 기반 피드백이 단계별 보상과 통계적으로 분리되는 경우를 특징짓고, 특정 MDP에 대해 불가피한 지수적 분리를 보여준다. 결정적 MDP의 경우, 완전성 가정을 제거하여 알고리즘을 크게 단순화하는 방법을 제시한다. 더 나아가 선호도 기반 피드백 설정으로 접근 방식을 확장하여, 더 제한적인 정보 하에서도 동등한 통계적 효율성을 달성할 수 있음을 증명한다. 이러한 결과는 결과 기반 강화 학습의 통계적 특성을 이해하기 위한 이론적 기반을 구성한다.