Sign In

Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Qifan Zhang, Dongyang Ma, Tianqing Fang, Jia Li, Jing Tang, Nuo Chen, Haitao Mi, Yan Wang

πŸ’‘ κ°œμš”

λ³Έ 논문은 κΈ°μ‘΄ 보상 기반의 인곡지λŠ₯ μ—μ΄μ „νŠΈκ°€ μΈκ°„μ˜ μ§€μ‹œμ— μ˜μ‘΄ν•˜λŠ” ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³ μž, μ™ΈλΆ€ 보상 없이도 슀슀둜 ν•™μŠ΅ν•˜κ³  λ°œμ „ν•˜λŠ” 'μžμƒμ  메타 μ§„ν™”' λŠ₯λ ₯을 κ°–μΆ˜ μ—μ΄μ „νŠΈ ν›ˆλ ¨ 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. 이 방법둠은 μ—μ΄μ „νŠΈκ°€ μƒμ„±ν•œ '세계 지식'이 ν•˜λ₯˜ μž‘μ—…μ˜ 성곡λ₯ μ„ μ–Όλ§ˆλ‚˜ ν–₯μƒμ‹œν‚€λŠ”μ§€λ₯Ό μΈ‘μ •ν•˜λŠ” κ²°κ³Ό 기반 보상 λ©”μ»€λ‹ˆμ¦˜μ„ ν›ˆλ ¨ λ‹¨κ³„μ—λ§Œ μ‚¬μš©ν•˜μ—¬, μ—μ΄μ „νŠΈκ°€ 탐색 및 μš”μ•½ λŠ₯λ ₯을 λ‚΄μž¬ν™”ν•˜λ„λ‘ ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 Qwen3-30B 및 Seed-OSS-36B λͺ¨λΈμ—μ„œ 20%의 μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆμœΌλ©°, 심지어 14B Qwen3 λͺ¨λΈμ΄ Gemini-2.5-Flashλ₯Ό λŠ₯κ°€ν•˜λŠ” μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„μ„ μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ§„μ •ν•œ 자율 μ—μ΄μ „νŠΈμ˜ κ°€λŠ₯μ„± μ œμ‹œ: μ™ΈλΆ€ μ§€μ‹œλ‚˜ 보상 없이도 슀슀둜 ν•™μŠ΅ν•˜κ³  ν™˜κ²½μ— μ μ‘ν•˜λŠ” μ—μ΄μ „νŠΈμ˜ 개발 κ°€λŠ₯성을 λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.
β€’
μ›”λ“œ 노리지 기반 μ§„ν™”μ˜ νš¨μœ¨μ„± μž…μ¦: μ—μ΄μ „νŠΈκ°€ μŠ΅λ“ν•œ 세계 지식이 λ‹¨μˆœνžˆ 정보 좕적을 λ„˜μ–΄ μ‹€μ œ 문제 ν•΄κ²° λŠ₯λ ₯ ν–₯μƒμœΌλ‘œ 이어짐을 효과적으둜 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
계산 λ³΅μž‘μ„± 및 μΌλ°˜ν™” μ„±λŠ₯: μžμƒμ  μ§„ν™” κ³Όμ •μ˜ 계산적 λ³΅μž‘μ„±κ³Ό λ‹€μ–‘ν•œ ν™˜κ²½ 및 μž‘μ—…μ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯을 λ”μš± 심도 있게 탐ꡬ할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘