Sign In

DocOS: Towards Proactive Document-Guided Actions in GUI Agents

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Jingjing Liu, Ziye Huang, Zihao Cheng, Zeming Liu, Jiahong Wu, Yuhang Guo, Kehai Chen, Yunhong Wang, Haifeng Wang

πŸ’‘ κ°œμš”

κΈ°μ‘΄ GUI μ—μ΄μ „νŠΈκ°€ 정적 νŒŒλΌλ―Έν„° 지식에 μ˜μ‘΄ν•˜μ—¬ μž₯기적인 μž‘μ—…μ„ μ²˜λ¦¬ν•˜λŠ” 데 ν•œκ³„λ₯Ό 보이자, λ³Έ λ…Όλ¬Έμ—μ„œλŠ” 동적 μ˜€ν”ˆ μ›Ή ν™˜κ²½μ—μ„œ μΈκ°„μ˜ 문제 ν•΄κ²° 방식을 λͺ¨λ°©ν•œ '사전 예방적 λ¬Έμ„œ μ•ˆλ‚΄ μ•‘μ…˜(Proactive Document-Guided Action)' νŒ¨λŸ¬λ‹€μž„μ„ μ œμ•ˆν•©λ‹ˆλ‹€. 이λ₯Ό ν‰κ°€ν•˜κΈ° μœ„ν•΄ μƒˆλ‘œμš΄ 벀치마크인 DocOSλ₯Ό κ°œλ°œν–ˆμœΌλ©°, μ‹€ν—˜ κ²°κ³Ό μ—μ΄μ „νŠΈκ°€ λ¬Έμ„œλ₯Ό 효과적으둜 νƒμƒ‰ν•˜κ³  지침을 GUI μ•‘μ…˜μœΌλ‘œ μ •ν™•νžˆ κ΅¬ν˜„ν•˜λŠ” 데 μ—¬μ „νžˆ 어렀움이 μžˆμŒμ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
동적이고 개방된 μ›Ή ν™˜κ²½μ—μ„œ GUI μ—μ΄μ „νŠΈκ°€ λ¬Έμ„œ 검색을 톡해 λ³΅μž‘ν•œ μž₯κΈ° μž‘μ—…μ„ ν•΄κ²°ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ¬Έμ„œ 검색 λŠ₯λ ₯κ³Ό κ²€μƒ‰λœ 지침을 GUI μ•‘μ…˜μœΌλ‘œ μ •ν™•ν•˜κ²Œ κ΅¬ν˜„ν•˜λŠ” λŠ₯λ ₯이 GUI μ—μ΄μ „νŠΈμ˜ 자율적 λ°œμ „μ— μžˆμ–΄ 핡심적인 μš”μ†Œμž„μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
μ—μ΄μ „νŠΈκ°€ μ›Ή λ¬Έμ„œλ₯Ό μ‹ λ’°μ„± 있게 νƒμƒ‰ν•˜κ³ , κ²€μƒ‰λœ 절차적 지침을 μ •ν™•ν•˜κ²Œ GUI μ•‘μ…˜μœΌλ‘œ κ΅¬ν˜„ν•˜λŠ” 데 λŒ€ν•œ 근본적인 어렀움을 ν•΄κ²°ν•΄μ•Ό ν•˜λŠ” κ³Όμ œκ°€ λ‚¨μ•„μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘