Generative Flow Networks (GFlowNets)는 복합적인 객체에 대한 분포를 모델링하여 다양하고 높은 보상을 받는 구조를 샘플링하도록 설계된 유망한 생성 모델의 한 종류입니다. 하지만 많은 실제 응용 분야에서 이러한 객체에 대한 보상 함수를 얻는 것은 비용이 많이 들거나 시간이 오래 걸리거나 사람의 개입이 필요하기 때문에 기존 데이터셋으로부터 GFlowNets를 훈련시키는 것이 필요합니다. 기존의 대부분의 방법은 모델 기반 접근 방식을 채택하여 데이터셋에서 프록시 모델을 학습하여 보상 함수를 근사합니다. 그러나 이러한 전략은 학습된 정책의 품질을 프록시의 정확도에 본질적으로 묶어 훈련 과정에 추가적인 복잡성과 불확실성을 도입합니다. 이러한 한계를 극복하기 위해 본 논문에서는 데이터셋 외부의 보상 쿼리가 필요 없는 \textbf{Trajectory-Distilled GFlowNet (TD-GFN)}이라는 \emph{프록시 없는} 훈련 프레임워크를 제안합니다. 본 방법은 연관된 DAG(directed acyclic graph)의 서로 다른 에지가 효과적인 정책 학습에 불균등하게 기여한다는 주요 관찰 결과에 착안합니다. TD-GFN은 역강화 학습을 활용하여 오프라인 데이터셋에서 에지 수준의 보상을 추정하고, 이를 사용하여 DAG를 독창적으로 가지치기하고 훈련 중에 역방향 궤적 샘플링을 안내합니다. 이러한 접근 방식은 모델 피팅의 복잡성을 줄이면서 정책을 높은 보상 영역으로 유도합니다. 여러 작업에 대한 실험 결과는 TD-GFN이 효율적이고 안정적으로 훈련되며, 수렴 속도와 샘플 품질 면에서 기존 기준보다 훨씬 뛰어난 성능을 보여줍니다.