생성 추천(GR)은 아이템 토크나이저와 생성형 대규모 언어 모델(LLM)을 활용하여 다양한 환경에서 성공을 거두었습니다. 기존 연구는 강력한 아이템 토크나이저 개발 또는 LLM 디코딩 전략 개선에 집중했지만, GR 프레임워크에서 LLM을 추천 데이터에 적응시키는 중요한 미세 조정 단계는 제대로 탐구되지 않았습니다. 현재 접근 방식은 주로 지도 미세 조정(SFT)의 다음 토큰 예측 손실 또는 추천 관련 직접 선호도 최적화(DPO) 전략에 의존합니다. 두 방법 모두 노출 편향 문제를 간과합니다. 본 논문에서는 GR을 다단계 생성 작업으로 처리하고 GFlowNets 기반 미세 조정 프레임워크(GFlowGR)를 구축합니다. 제안된 프레임워크는 기존 추천 시스템의 협업 지식을 통합하여 적응형 궤적 샘플러와 포괄적인 보상 모델을 생성합니다. GFlowNets의 다양한 생성 속성을 활용하여 GFlowGR은 노출 편향 문제를 완화하는 유망한 접근 방식으로 부상했습니다. 두 개의 실제 데이터 세트와 두 개의 다른 GR 백본에 대한 광범위한 실험 결과는 GFlowGR의 효과와 견고성을 강조합니다.