Sign In

ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

Created by
  • Haebom
Category
Empty

μ €μž

Dunwei Tu, Hongyan Hao, Hansi Yang, Yihao Chen, Yi-Kai Zhang, Zhikang Xia, Yu Yang, Yueqing Sun, Xingchen Liu, Furao Shen, Qi Gu, Hui Su, Xunliang Cai

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ‹€μ–‘ν•œ μ‹œλ‚˜λ¦¬μ˜€μ— 적응할 수 μžˆλŠ” 일반적인 μ—μ΄μ „νŠΈ ν›ˆλ ¨μ— ν•„μˆ˜μ μΈ λŒ€ν™”ν˜• ν™˜κ²½μ΄ λΆ€μ‘±ν•˜λ‹€λŠ” 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 'ScaleEnv'λΌλŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. ScaleEnvλŠ” 절차적 ν…ŒμŠ€νŠΈμ™€ 도ꡬ μ˜μ‘΄μ„± κ·Έλž˜ν”„ ν™•μž₯을 톡해 ν™˜κ²½μ˜ μ‹ λ’°μ„±, μž‘μ—…μ˜ μ™„μ „μ„± 및 ν•΄κ²° κ°€λŠ₯성을 보μž₯ν•˜λ©°, 이λ₯Ό 톡해 ν›ˆλ ¨λœ μ—μ΄μ „νŠΈλŠ” 처음 λ³΄λŠ” 닀쀑 ν„΄ 도ꡬ μ‚¬μš© λ²€μΉ˜λ§ˆν¬μ—μ„œ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 보여 μΌλ°˜ν™” λŠ₯λ ₯을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν™˜κ²½ ν•©μ„±μ˜ ν™•μž₯μ„±κ³Ό λ‹€μ–‘μ„± 확보: ScaleEnvλŠ” κΈ°μ‘΄ λ°©λ²•λ‘ μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³  μ²˜μŒλΆ€ν„° μ™„μ „νžˆ λŒ€ν™”ν˜• ν™˜κ²½κ³Ό 검증 κ°€λŠ₯ν•œ μž‘μ—…μ„ ν•©μ„±ν•¨μœΌλ‘œμ¨ ν™˜κ²½μ˜ 닀양성을 효과적으둜 ν™•μž₯ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ—μ΄μ „νŠΈμ˜ μΌλ°˜ν™” λŠ₯λ ₯ κ°•ν™”: λ‹€μ–‘ν•œ λ„λ©”μΈμ—μ„œ μƒμ„±λœ ν™˜κ²½μ—μ„œμ˜ ν›ˆλ ¨μ€ μ—μ΄μ „νŠΈκ°€ 보지 λͺ»ν•œ μƒˆλ‘œμš΄ μž‘μ—…μ—μ„œλ„ 높은 μ„±λŠ₯을 λ°œνœ˜ν•˜λ„λ‘ ν•˜μ—¬, μΌλ°˜ν™”λœ μ—μ΄μ „νŠΈ ν•™μŠ΅μ— μžˆμ–΄ ν™˜κ²½ λ‹€μ–‘μ„±μ˜ μ€‘μš”μ„±μ„ μ‹€μ¦μ μœΌλ‘œ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ³΅μž‘ν•œ ν™˜κ²½ 및 μž‘μ—…μ˜ μžλ™ 생성: 절차적 ν…ŒμŠ€νŠΈ, 도ꡬ μ˜μ‘΄μ„± κ·Έλž˜ν”„ ν™•μž₯, μ‹€ν–‰ κ°€λŠ₯ν•œ 행동 검증과 같은 κΈ°μˆ μ„ 톡해 λ³΅μž‘ν•˜κ³  μƒν˜Έμž‘μš©μ μΈ ν™˜κ²½κ³Ό ν•΄κ²° κ°€λŠ₯ν•œ μž‘μ—…μ„ μžλ™μœΌλ‘œ μƒμ„±ν•˜λŠ” 데 μ΄ˆμ μ„ λ§žμΆ”κ³  μžˆμœΌλ‚˜, μ‹€μ œ μ„Έκ³„μ˜ λ³΅μž‘ν•˜κ³  λΉ„μ •ν˜•μ μΈ ν™˜κ²½μ„ μ™„μ „νžˆ λͺ¨μ‚¬ν•˜λŠ” λ°λŠ” μ—¬μ „νžˆ 도전 κ³Όμ œκ°€ μ‘΄μž¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘