자기회귀 디코딩 알고리즘은 과거 정보만 사용하기 때문에 최적의 성능을 보장할 수 없다는 한계가 있다. 본 논문에서는 몬테카를로 트리 탐색(MCTS)과 같은 선행 알고리즘과 외부 보상 모델(RM)을 사용하여 향후 출력과 관련 보상을 활용함으로써 모델 출력을 크게 향상시킬 수 있음을 보여준다. 하지만 이러한 기법은 높은 계산 비용으로 인해, 특히 스트리밍 환경에서는 적용이 제한적이다. 이 문제를 해결하기 위해 본 논문은 외부 모델과 추가 통신 없이 토큰 수준의 자기 보상 모델링(TRM) 기능을 정책 모델에 탑재하는 Reward Transformer 아키텍처를 제안한다. 또한, 병렬 처리 성능을 향상시켜 검색 효율을 높이는 스트리밍 선행 알고리즘(SLA)을 제안한다. 실험 결과, SLA는 고정된 정책 모델을 사용하여 세 가지 일반 도메인 데이터셋에서 기준 탐욕적 디코딩 알고리즘에 대해 79.7%의 승률을 달성하면서 스트리밍 효율성을 유지한다. DPO와 같은 강화 학습 미세 조정 기법과 SLA를 결합하면 89.4%의 승률을 달성한다.