Sign In

ProAct: Agentic Lookahead in Interactive Environments

Created by
  • Haebom
Category
Empty

μ €μž

Yangbin Yu, Mingyu Yang, Junyou Li, Yiming Gao, Feiyu Liu, Yijun Yang, Zichuan Lin, Jiafei Lyu, Yicheng Liu, Zhicong Lu, Deheng Ye, Jie Jiang

πŸ’‘ κ°œμš”

κΈ°μ‘΄ LLM μ—μ΄μ „νŠΈλŠ” μž₯κΈ° κ³„νšμ΄ ν•„μš”ν•œ λŒ€ν™”ν˜• ν™˜κ²½μ—μ„œ 였λ₯˜κ°€ λˆ„μ λ˜λŠ” λ¬Έμ œμ μ„ 보이며 어렀움을 κ²ͺμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ λ³Έ 논문은 두 단계 ν•™μŠ΅ νŒ¨λŸ¬λ‹€μž„μ„ 톡해 μ—μ΄μ „νŠΈκ°€ μ •ν™•ν•œ 예츑 좔둠을 λ‚΄μž¬ν™”ν•˜λ„λ‘ ν•˜λŠ” ProAct ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. Grounded LookAhead Distillation (GLAD)을 톡해 μ—μ΄μ „νŠΈλŠ” ν™˜κ²½ 기반 νƒμƒ‰μ—μ„œ νŒŒμƒλœ ꢀ적에 λŒ€ν•œ 지도 ν•™μŠ΅μ„ 거쳐 λ³΅μž‘ν•œ 탐색 트리λ₯Ό κ°„κ²°ν•œ 인과적 μΆ”λ‘  체인으둜 μ••μΆ•ν•¨μœΌλ‘œμ¨ μΆ”λ‘  μ‹œμ  νƒμƒ‰μ˜ 계산 μ˜€λ²„ν—€λ“œ 없이 예츑 λ‘œμ§μ„ ν•™μŠ΅ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM μ—μ΄μ „νŠΈκ°€ μž₯κΈ° κ³„νšμ΄ μš”κ΅¬λ˜λŠ” λŒ€ν™”ν˜• ν™˜κ²½μ—μ„œ λ°œμƒν•˜λŠ” 예츑 였λ₯˜ 문제λ₯Ό 효과적으둜 ν•΄κ²°ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ ν•™μŠ΅ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
GLAD와 MC-Critic을 톡해 κΈ°μ‘΄ LLM μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚€λ©°, 특히 4B νŒŒλΌλ―Έν„° λͺ¨λΈμ΄ μ΅œμ‹  λͺ¨λΈλ“€κ³Ό κ²½μŸν•  λ§Œν•œ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ ν™˜κ²½μ— λŒ€ν•œ κ°•λ ₯ν•œ μΌλ°˜ν™” μ„±λŠ₯을 μž…μ¦ν•˜λ©°, μ‹€μ œ 적용 κ°€λŠ₯성을 λ†’μž…λ‹ˆλ‹€.
β€’
MC-Critic의 νš¨μœ¨μ„±μ€ 계산 λΉ„μš©μ΄ 높은 λͺ¨λΈ 기반 κ°€μΉ˜ 근사에 μ˜μ‘΄ν•˜μ§€ μ•Šκ³  μ•ˆμ •μ μΈ μ •μ±… μ΅œμ ν™”λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
(ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제) 2048κ³Ό 같은 ν™•λ₯ μ  ν™˜κ²½κ³Ό Sokobanκ³Ό 같은 결정둠적 ν™˜κ²½μ—μ„œμ˜ μ‹€ν—˜ κ²°κ³ΌλŠ” μ œμ‹œλ˜μ—ˆμœΌλ‚˜, 더 λ³΅μž‘ν•˜κ³  ν˜„μ‹€μ μΈ λŒ€ν™”ν˜• ν™˜κ²½μ—μ„œμ˜ 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘