Sign In

RewardHarness: Self-Evolving Agentic Post-Training

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yuxuan Zhang, Penghui Du, Bo Li, Cong Wei, Junwen Miao, Huaisong Zhang, Songcheng Cai, Yubo Wang, Dongfu Jiang, Yuyu Zhang, Ping Nie, Wenhu Chen, Changqian Yu, Kelsey R. Allen

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ§€μΉ¨ 기반 이미지 νŽΈμ§‘ ν‰κ°€μ—μ„œ μΈκ°„μ˜ λ―Έλ¬˜ν•œ μ„ ν˜Έλ„λ₯Ό λ°˜μ˜ν•˜λŠ” 보상 λͺ¨λΈμ˜ ν•„μš”μ„±μ„ μ œκΈ°ν•©λ‹ˆλ‹€. κΈ°μ‘΄ 방식은 λŒ€κ·œλͺ¨ 주석과 μΆ”κ°€ λͺ¨λΈ ν•™μŠ΅μ— μ˜μ‘΄ν•˜μ—¬ 데이터 νš¨μœ¨μ„± 격차λ₯Ό μ•ΌκΈ°ν•˜μ§€λ§Œ, μ œμ•ˆλœ RewardHarness ν”„λ ˆμž„μ›Œν¬λŠ” 수백만 개의 비ꡐ 데이터 없이도 적은 수의 μ£Όμ„μœΌλ‘œ μΈκ°„μ˜ μ„ ν˜Έλ„μ— 맞좜 수 μžˆλŠ” 자체 진화적 μ—μ΄μ „νŠΈ 기반 보상 λͺ¨λΈμ„ μ œμ‹œν•©λ‹ˆλ‹€. 이 λͺ¨λΈμ€ 도ꡬ와 기술 라이브러리λ₯Ό 반볡적으둜 λ°œμ „μ‹œμΌœ, 이λ₯Ό 톡해 μΆ”λ‘  체인을 κ΅¬μΆ•ν•˜κ³  μ„ ν˜Έλ„ νŒλ‹¨μ„ μƒμ„±ν•˜μ—¬ 보상 λͺ¨λΈμ„ μžλ™μœΌλ‘œ κ°œμ„ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
데이터 효율적인 ν•™μŠ΅: 적은 μ–‘μ˜ 인간 μ„ ν˜Έλ„ λ°μ΄ν„°λ§ŒμœΌλ‘œλ„ 효과적인 보상 λͺ¨λΈ ν•™μŠ΅μ΄ κ°€λŠ₯함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ—μ΄μ „νŠΈ 기반의 μΆ”λ‘ : 도ꡬ와 κΈ°μˆ μ„ ν™œμš©ν•œ μ—μ΄μ „νŠΈμ˜ μΆ”λ‘  과정을 톡해 보상 λͺ¨λΈμ˜ 투λͺ…μ„±κ³Ό 해석 κ°€λŠ₯성을 λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
μžλ™ν™”λœ 보상 λͺ¨λΈ κ°œμ„ : 좔가적인 인간 κ°œμž… 없이도 보상 λͺ¨λΈ 자체λ₯Ό μ§€μ†μ μœΌλ‘œ κ°œμ„ ν•  수 μžˆλŠ” μžλ™ν™” λ©”μ»€λ‹ˆμ¦˜μ„ μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ„±λŠ₯의 μΌλ°˜ν™”: μ œμ•ˆλœ 방법둠이 λ‹€μ–‘ν•œ 이미지 νŽΈμ§‘ 평가 λ²€μΉ˜λ§ˆν¬μ—μ„œ κΈ°μ‘΄ λͺ¨λΈμ„ λŠ₯κ°€ν•˜λŠ” μ„±λŠ₯을 λ³΄μ˜€μ§€λ§Œ, νŠΉμ • λ„λ©”μΈμ΄λ‚˜ λ³΅μž‘ν•œ νŽΈμ§‘ μž‘μ—…μ—μ„œμ˜ μΌλ°˜ν™” μ„±λŠ₯은 μΆ”κ°€ 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘