Daily Arxiv

μ „ μ„Έκ³„μ—μ„œ λ°œκ°„λ˜λŠ” 인곡지λŠ₯ κ΄€λ ¨ 논문을 μ •λ¦¬ν•˜λŠ” νŽ˜μ΄μ§€ μž…λ‹ˆλ‹€.
λ³Έ νŽ˜μ΄μ§€λŠ” Google Geminiλ₯Ό ν™œμš©ν•΄ μš”μ•½ μ •λ¦¬ν•˜λ©°, λΉ„μ˜λ¦¬λ‘œ 운영 λ©λ‹ˆλ‹€.
논문에 λŒ€ν•œ μ €μž‘κΆŒμ€ μ €μž 및 ν•΄λ‹Ή 기관에 있으며, 곡유 μ‹œ 좜처만 λͺ…κΈ°ν•˜λ©΄ λ©λ‹ˆλ‹€.

Reinforce-Ada: An Adaptive Sampling Framework under Non-linear RL Objectives

Created by
  • Haebom
Category
Empty

μ €μž

Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ 좔둠을 μœ„ν•œ κ°•ν™” ν•™μŠ΅(RL)μ—μ„œ μ–΄λ €μš΄ ν”„λ‘¬ν”„νŠΈμ— λŒ€ν•œ ν•™μŠ΅ μ‹ ν˜Έ 손싀 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, λΉ„μ„ ν˜• RL λͺ©μ  ν•¨μˆ˜λ₯Ό μ΅œμ ν™”ν•˜λŠ” μƒˆλ‘œμš΄ 적응적 μƒ˜ν”Œλ§ ν”„λ ˆμž„μ›Œν¬μΈ Reinforce-Adaλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. Reinforce-AdaλŠ” ν”„λ‘¬ν”„νŠΈμ˜ λ‚œμ΄λ„μ— 따라 μΆ”λ‘  μ˜ˆμ‚°μ„ λ™μ μœΌλ‘œ ν• λ‹Ήν•˜μ—¬ μ–΄λ €μš΄ ν”„λ‘¬ν”„νŠΈμ— 더 λ§Žμ€ 계산 μžμ›μ„ νˆ¬μž…ν•¨μœΌλ‘œμ¨ ν•™μŠ΅ νš¨μœ¨μ„ λ†’μž…λ‹ˆλ‹€. λ‹€μ–‘ν•œ 벀치마크 μ‹€ν—˜ κ²°κ³Ό, Reinforce-AdaλŠ” GRPO와 같은 기쑴의 κ· λ“± μƒ˜ν”Œλ§ 방식보닀 μ΅œλŒ€ 2λ°° λΉ λ₯Έ 수렴 속도λ₯Ό 보이며, μžƒμ–΄λ²„λ¦° ν•™μŠ΅ μ‹ ν˜Έλ₯Ό 효과적으둜 λ³΅κ΅¬ν•˜λŠ” 것을 ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
Reinforce-AdaλŠ” μ–΄λ €μš΄ ν”„λ‘¬ν”„νŠΈμ— λŒ€ν•œ ν•™μŠ΅ μ‹ ν˜Έ 손싀 문제λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄ 적응적 μƒ˜ν”Œλ§μ„ ν™œμš©ν•˜μ—¬, κ°•ν™” ν•™μŠ΅ 기반 μ–Έμ–΄ λͺ¨λΈ ν›ˆλ ¨μ˜ νš¨μœ¨μ„±μ„ 크게 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 μ €μ‹ ν˜Έ ν”„λ‘¬ν”„νŠΈλ₯Ό νκΈ°ν•˜λŠ” λŒ€μ‹ , 적극적으둜 계산 μžμ›μ„ νˆ¬μž…ν•˜μ—¬ λ³΅κ΅¬ν•˜λŠ” μ „λž΅μ„ 톡해 μ„±λŠ₯ ν–₯상을 μ΄λŒμ–΄λƒˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” νŠΉμ • 벀치마크 및 μ–Έμ–΄ λͺ¨λΈμ— λŒ€ν•œ μ„±λŠ₯을 μ œμ‹œν•˜μ˜€μœΌλ―€λ‘œ, λ‹€μ–‘ν•œ ν™˜κ²½μ—μ„œμ˜ μΌλ°˜ν™” μ„±λŠ₯에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘