Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Proxy-Free GFlowNet

Created by
  • Haebom

저자

Ruishuo Chen, Xun Wang, Rui Hu, Zhuoran Li, Longbo Huang

개요

Generative Flow Networks (GFlowNets)는 복합적인 객체에 대한 분포를 모델링하여 다양하고 높은 보상을 받는 구조를 샘플링하도록 설계된 유망한 생성 모델의 한 종류입니다. 하지만 많은 실제 응용 분야에서 이러한 객체에 대한 보상 함수를 얻는 것은 비용이 많이 들거나 시간이 오래 걸리거나 사람의 개입이 필요하기 때문에 기존 데이터셋으로부터 GFlowNets를 훈련시키는 것이 필요합니다. 기존의 대부분의 방법은 모델 기반 접근 방식을 채택하여 데이터셋에서 프록시 모델을 학습하여 보상 함수를 근사합니다. 그러나 이러한 전략은 학습된 정책의 품질을 프록시의 정확도에 본질적으로 묶어 훈련 과정에 추가적인 복잡성과 불확실성을 도입합니다. 이러한 한계를 극복하기 위해 본 논문에서는 데이터셋 외부의 보상 쿼리가 필요 없는 \textbf{Trajectory-Distilled GFlowNet (TD-GFN)}이라는 \emph{프록시 없는} 훈련 프레임워크를 제안합니다. 본 방법은 연관된 DAG(directed acyclic graph)의 서로 다른 에지가 효과적인 정책 학습에 불균등하게 기여한다는 주요 관찰 결과에 착안합니다. TD-GFN은 역강화 학습을 활용하여 오프라인 데이터셋에서 에지 수준의 보상을 추정하고, 이를 사용하여 DAG를 독창적으로 가지치기하고 훈련 중에 역방향 궤적 샘플링을 안내합니다. 이러한 접근 방식은 모델 피팅의 복잡성을 줄이면서 정책을 높은 보상 영역으로 유도합니다. 여러 작업에 대한 실험 결과는 TD-GFN이 효율적이고 안정적으로 훈련되며, 수렴 속도와 샘플 품질 면에서 기존 기준보다 훨씬 뛰어난 성능을 보여줍니다.

시사점, 한계점

시사점:
프록시 모델을 사용하지 않는 proxy-free GFlowNet 훈련 프레임워크인 TD-GFN을 제시하여 기존의 한계를 극복.
역강화학습을 통해 에지 수준의 보상을 추정하여 DAG를 효율적으로 가지치고 학습을 가이드.
기존 방법들보다 향상된 수렴 속도와 샘플 품질을 실험적으로 검증.
효율적이고 안정적인 GFlowNet 훈련 방법을 제공.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 실험이 필요할 수 있음.
특정 유형의 DAG 구조에 대해서만 최적화되었을 가능성.
고차원 데이터 또는 복잡한 DAG에 대한 확장성에 대한 추가적인 연구가 필요할 수 있음.
👍