Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond the Proxy: Trajectory-Distilled Guidance for Offline GFlowNet Training

Created by
  • Haebom

저자

Ruishuo Chen, Xun Wang, Rui Hu, Zhuoran Li, Longbo Huang

개요

Generative Flow Networks (GFlowNets)는 다양한 고보상 객체 샘플링에 효과적이지만, 새로운 보상 쿼리가 불가능한 실제 환경에서는 오프라인 데이터셋으로부터 훈련되어야 한다. 기존의 프록시 기반 훈련 방법은 오류 전파에 취약하며, 프록시 없는 기존 접근 방식은 탐색을 제한하는 거친 제약을 사용한다. 본 논문은 이러한 문제를 해결하기 위해 새로운 프록시 없는 훈련 프레임워크인 Trajectory-Distilled GFlowNet (TD-GFN)을 제안한다. TD-GFN은 역 강화 학습을 통해 오프라인 궤적에서 밀집된, 전이 수준의 엣지 보상을 학습하여 효율적인 탐색을 위한 풍부한 구조적 지침을 제공한다. 중요한 점은, 견고성을 보장하기 위해 이러한 보상이 DAG 가지치기 및 훈련 궤적의 우선순위가 지정된 역방향 샘플링을 통해 정책을 안내하는 데 간접적으로 사용된다는 것이다. 이를 통해 최종 기울기 업데이트가 데이터셋의 ground-truth 최종 보상에만 의존하도록 하여 오류 전파를 방지한다. 실험 결과, TD-GFN은 수렴 속도와 최종 샘플 품질 모두에서 광범위한 기존 기준선을 크게 능가하여 오프라인 GFlowNet 훈련을 위한 더 견고하고 효율적인 패러다임을 구축했다.

시사점, 한계점

시사점:
오프라인 GFlowNet 훈련을 위한 새로운 프록시 없는 방법론 제시 (TD-GFN).
역 강화 학습을 통해 엣지 보상을 학습하여 효율적인 탐색을 위한 구조적 지침 제공.
DAG 가지치기와 우선순위가 지정된 역방향 샘플링을 통해 오류 전파 방지.
기존 방법론 대비 향상된 수렴 속도 및 샘플 품질 달성.
한계점:
논문에 명시된 한계점은 없음.
👍