Sign In

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

Created by
  • Haebom
Category
Empty

μ €μž

Zhepeng Cen, Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Jielin Qiu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)은 λ°©λŒ€ν•œ ν…μŠ€νŠΈ μ½”νΌμŠ€λ₯Ό ν†΅ν•œ λͺ¨λ°© ν•™μŠ΅μœΌλ‘œ 성곡을 κ±°λ‘μ—ˆμ§€λ§Œ, ν›ˆλ ¨-생성 κ°„κ·Ήκ³Ό κ²¬κ³ ν•œ μΆ”λ‘  λŠ₯λ ₯의 ν•œκ³„λ₯Ό μ•ΌκΈ°ν•©λ‹ˆλ‹€. κ°•ν™”ν•™μŠ΅(RL)은 이 간극을 λ©”μšΈ 수 μžˆλŠ” 데이터 효율적인 해결책을 μ œμ‹œν•˜μ§€λ§Œ, κΈ°μ‘΄ RL 데이터셋이 μ›ΉμŠ€μΌ€μΌ 사전 ν•™μŠ΅ μ½”νΌμŠ€μ— λΉ„ν•΄ 훨씬 μž‘κ³  닀양성이 λΆ€μ‘±ν•˜λ‹€λŠ” 데이터 병λͺ© ν˜„μƒμœΌλ‘œ 인해 적용이 μ œν•œμ μ΄μ—ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ 사전 ν•™μŠ΅ λ¬Έμ„œλ₯Ό μ²΄κ³„μ μœΌλ‘œ λ³€ν™˜ν•˜μ—¬ RL ν•™μŠ΅μ— μ‚¬μš©ν•  수 μžˆλŠ” 수백만 개의 λ‹€μ–‘ν•˜κ³  검증 κ°€λŠ₯ν•œ 질문-λ‹΅λ³€ μŒμ„ μƒμ„±ν•˜λŠ” ν™•μž₯ κ°€λŠ₯ν•œ 데이터 엔진인 Webscale-RL νŒŒμ΄ν”„λΌμΈμ„ μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
Webscale-RL νŒŒμ΄ν”„λΌμΈμ€ λŒ€κ·œλͺ¨ ν…μŠ€νŠΈ μ½”νΌμŠ€λ₯Ό κ°•ν™”ν•™μŠ΅μ— ν™œμš© κ°€λŠ₯ν•œ λ°μ΄ν„°λ‘œ μžλ™ λ³€ν™˜ν•˜μ—¬ RL 데이터셋 κ΅¬μΆ•μ˜ 병λͺ© ν˜„μƒμ„ ν•΄μ†Œν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
Webscale-RL λ°μ΄ν„°μ…‹μœΌλ‘œ ν•™μŠ΅ν•œ λͺ¨λΈμ€ κΈ°μ‘΄ 방식보닀 μ„±λŠ₯이 μš°μˆ˜ν•˜λ©°, 특히 100λ°° 적은 ν† ν°μœΌλ‘œλ„ μœ μ‚¬ν•œ μ„±λŠ₯을 λ‹¬μ„±ν•˜μ—¬ RL ν•™μŠ΅μ˜ νš¨μœ¨μ„±μ„ 크게 λ†’μž…λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” κ°•ν™”ν•™μŠ΅μ„ 사전 ν•™μŠ΅ μˆ˜μ€€κΉŒμ§€ ν™•μž₯ν•˜μ—¬ 더 κ°•λ ₯ν•˜κ³  효율적인 μ–Έμ–΄ λͺ¨λΈμ„ κ°œλ°œν•  수 μžˆλŠ” μ‹€μ§ˆμ μΈ 경둜λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
ν–₯ν›„ κ³Όμ œλŠ” μƒμ„±λœ λ°μ΄ν„°μ˜ ν’ˆμ§ˆκ³Ό 닀양성을 λ”μš± κ°œμ„ ν•˜κ³ , λ‹€λ₯Έ μœ ν˜•μ˜ LLM μž‘μ—…μ— μ μš©ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.
πŸ‘