Sign In

TIER: Trajectory-Invariant Execution Rewards for Multi-Step Tool Composition

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Anay Kulkarni, ChiaEn Lu, Dheeraj Mekala, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ΄ λ³΅μž‘ν•œ μž‘μ—…μ„ API 호좜 μ‹œν€€μŠ€λ₯Ό 톡해 ν•΄κ²°ν•˜λ„λ‘ λ•λŠ” 도ꡬ μ‚¬μš©μ—μ„œ λ°œμƒν•˜λŠ” 닀단계 도ꡬ μ‘°ν•© λ¬Έμ œμ— λŒ€ν•œ κΈ°μ‘΄ κ°•ν™”ν•™μŠ΅ μ ‘κ·Ό λ°©μ‹μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³ μž ν•©λ‹ˆλ‹€. μ—°κ΅¬νŒ€μ€ μ°Έμ‘° ꢀ적에 μ˜μ‘΄ν•˜λŠ” λŒ€μ‹  ν•¨μˆ˜ μŠ€ν‚€λ§ˆμ™€ λŸ°νƒ€μž„ μ‹€ν–‰μ—μ„œ 직접 감독 정보λ₯Ό μ–»λŠ” TIER(Trajectory-Invariant Execution Rewards) ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. TIERλŠ” ν˜•μ‹ μœ νš¨μ„±, μŠ€ν‚€λ§ˆ μ€€μˆ˜, μ‹€ν–‰ 성곡, λ‹΅λ³€ μ •ν™•λ„λ‘œ 보상을 λΆ„ν•΄ν•˜μ—¬, λ‹€μ–‘ν•œ ν•΄κ²° μ „λž΅μ„ μ§€μ›ν•˜κ³  μœ νš¨ν•œ λͺ¨λ“  μ‹€ν–‰ κ²½λ‘œμ— ν¬λ ˆλ”§μ„ λΆ€μ—¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
TIERλŠ” μ°Έμ‘° ꢀ적에 λŒ€ν•œ μ˜μ‘΄μ„±μ„ μ œκ±°ν•˜μ—¬ 닀단계 도ꡬ μ‘°ν•© λ¬Έμ œμ—μ„œ κ°•ν™”ν•™μŠ΅μ˜ ν™•μž₯성을 크게 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
보상 ν•¨μˆ˜λ₯Ό μ„ΈλΆ„ν™”ν•˜μ—¬ 각 단계별 ν”Όλ“œλ°±μ„ μ œκ³΅ν•¨μœΌλ‘œμ¨ 도ꡬ μ‚¬μš©μ˜ 해석 κ°€λŠ₯μ„±κ³Ό νš¨μœ¨μ„±μ„ λ†’μž…λ‹ˆλ‹€.
β€’
DepthBench와 같은 λ²€μΉ˜λ§ˆν¬μ—μ„œ κΈ°μ‘΄ 방법둠 λŒ€λΉ„ μ›”λ“±ν•œ μ„±λŠ₯을 보이며, 특히 λ³΅μž‘ν•œ 닀단계 μž‘μ—…μ—μ„œ 강점을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€.
β€’
TIER의 각 보상 ꡬ성 μš”μ†Œκ°€ λͺ¨λ‘ μ„±λŠ₯ ν–₯상에 ν•„μˆ˜μ μž„μ΄ μž…μ¦λ˜μ–΄, 닀단계 좔둠에 λŒ€ν•œ 닀측적 κ°λ…μ˜ μ€‘μš”μ„±μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ—°κ΅¬λŠ” μ œμ•ˆλœ TIER ν”„λ ˆμž„μ›Œν¬μ˜ νš¨κ³Όμ„±μ„ μž…μ¦ν•˜λŠ” 데 μ΄ˆμ μ„ λ§žμΆ”κ³  있으며, μ‹€μ œ λ³΅μž‘ν•˜κ³  λ™μ μœΌλ‘œ λ³€ν™”ν•˜λŠ” ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯μ„±κ³Ό μΌλ°˜ν™” μ„±λŠ₯에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘