Bài báo này đề cập đến một vấn đề then chốt trong học tăng cường sử dụng phản hồi dựa trên kết quả: cách gán tín nhiệm cho các hành động đúng khi phần thưởng chỉ được quan sát tại các điểm cuối của quỹ đạo. Chúng tôi cung cấp phân tích toàn diện đầu tiên về vấn đề này trong bối cảnh học tăng cường trực tuyến bằng cách sử dụng xấp xỉ hàm tổng quát. Chúng tôi phát triển một thuật toán hiệu quả về mẫu có thể chứng minh được, đạt được độ phức tạp mẫu là $\widetilde{O}({C_{\rm cov} H^3}/{\epsilon^2})$, trong đó $C_{\rm cov}$ là hệ số khả năng bao phủ của MDP cơ bản. Bằng cách tận dụng xấp xỉ hàm tổng quát, chúng tôi đạt được hoạt động hiệu quả ngay cả trong không gian trạng thái lớn hoặc vô hạn, nơi các phương pháp dạng bảng không hiệu quả, với điều kiện hàm giá trị và hàm phần thưởng có thể được biểu diễn trong một lớp hàm thích hợp. Chúng tôi cũng mô tả các trường hợp mà phản hồi dựa trên kết quả có thể tách biệt về mặt thống kê với phần thưởng từng bước và chứng minh rằng sự tách biệt theo cấp số nhân là không thể tránh khỏi đối với một số MDP nhất định. Đối với MDP xác định, chúng tôi trình bày một phương pháp giúp đơn giản hóa đáng kể thuật toán bằng cách loại bỏ giả định về tính đầy đủ. Hơn nữa, chúng tôi mở rộng phương pháp tiếp cận sang các thiết lập phản hồi dựa trên sở thích, chứng minh rằng hiệu quả thống kê tương đương có thể đạt được ngay cả khi thông tin hạn chế hơn. Những kết quả này tạo thành cơ sở lý thuyết để hiểu các đặc tính thống kê của học tăng cường dựa trên kết quả.