Sign In

Dynamic-TreeRPO: Breaking the Independent Trajectory Bottleneck with Structured Sampling

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Xiaolong Fu, Lichen Ma, Zipeng Guo, ShiPing Dong, Lan Yang, Tan Lit Sin, Gaojing Zhou, Yu He, Jingling Fu, Shizhe Zhou, Junshi Huang, Jason Li

πŸ’‘ κ°œμš”

λ³Έ 논문은 ν…μŠ€νŠΈ-이미지 μƒμ„±μ—μ„œ κ°•ν™”ν•™μŠ΅(RL) 기반의 흐름 λ§€μΉ­ λͺ¨λΈμ΄ κ²ͺλŠ” 탐색 νš¨μœ¨μ„± 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 'Dynamic-TreeRPO'λ₯Ό μ œμ•ˆν•œλ‹€. 이 방법둠은 μŠ¬λΌμ΄λ”© μœˆλ„μš° μƒ˜ν”Œλ§μ„ 트리 ꡬ쑰 κ²€μƒ‰μœΌλ‘œ ν™•μž₯ν•˜κ³ , 각 κΉŠμ΄μ— 따라 λ™μ μœΌλ‘œ λ…Έμ΄μ¦ˆ 강도λ₯Ό μ‘°μ ˆν•˜λŠ” 방식을 μ‚¬μš©ν•œλ‹€. 이λ₯Ό 톡해 계산 μ˜€λ²„ν—€λ“œλ₯Ό μ€„μ΄λ©΄μ„œλ„ 탐색 닀양성을 높이고, SFT와 RL을 ν†΅ν•©ν•œ 'LayerTuning-RL'을 톡해 ν•™μŠ΅ νš¨μœ¨μ„±μ„ κ°œμ„ ν•˜μ—¬ 생성 ν’ˆμ§ˆκ³Ό μ‚¬λžŒ μ„ ν˜Έλ„ μΌμΉ˜λ„λ₯Ό ν–₯μƒμ‹œμΌ°λ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν…μŠ€νŠΈ-이미지 μƒμ„±μ—μ„œ RL의 탐색 병λͺ© ν˜„μƒμ„ 트리 ꡬ쑰 μƒ˜ν”Œλ§κ³Ό 동적 λ…Έμ΄μ¦ˆ μ‘°μ ˆμ„ 톡해 효과적으둜 ν•΄κ²°ν•  수 μžˆμŒμ„ 보여쀀닀.
β€’
SFT와 RL νŒ¨λŸ¬λ‹€μž„μ„ λ™μ μœΌλ‘œ ν†΅ν•©ν•˜λŠ” LayerTuning-RL μ ‘κ·Ό 방식은 기쑴의 별도 사전 ν•™μŠ΅ 방법 λŒ€λΉ„ νš¨μœ¨μ„±κ³Ό μ„±λŠ₯을 ν–₯μƒμ‹œν‚¨λ‹€.
β€’
μ œμ•ˆλœ 방법은 κΈ°μ‘΄ μ΅œμ‹  λͺ¨λΈ λŒ€λΉ„ 생성 ν’ˆμ§ˆ, 의미둠적 일관성, μ‚¬λžŒ μ„ ν˜Έλ„ μΌμΉ˜λ„μ—μ„œ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 λ³΄μ˜€μœΌλ©°, ν•™μŠ΅ νš¨μœ¨μ„± λ˜ν•œ 크게 κ°œμ„ λ˜μ—ˆλ‹€.
β€’
트리 ꡬ쑰 검색 및 동적 λ…Έμ΄μ¦ˆ 강도 섀계에 λŒ€ν•œ 좔가적인 μ΅œμ ν™”μ™€ 일반적인 흐름 λ§€μΉ­ λͺ¨λΈμ— λŒ€ν•œ 적용 κ°€λŠ₯μ„± 탐색이 ν–₯ν›„ κ³Όμ œκ°€ 될 수 μžˆλ‹€.
πŸ‘