haebom
Sign In
Building Autonomous GUI Navigation via Agentic-Q Estimation and Step-Wise Policy Optimization
Created by
Haebom
Category
Empty
μ μ
Yibo Wang, Guangda Huzhang, Yuwei Hu, Yu Xia, Shiyin Lu, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Lijun Zhang
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λ©ν°λͺ¨λ¬ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(MLLM) κΈ°λ° GUI μμ΄μ νΈκ° λΉμ ν νκ²½μμ κ²ͺλ λμ κ³μ° λΉμ© λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ μλ‘μ΄ νλ μμν¬λ₯Ό μ μν©λλ€. μ μλ νλ μμν¬λ μ‘μ μ κΈ°μ¬λλ₯Ό νκ°νλ Q-λͺ¨λΈκ³Ό μ΄λ₯Ό νμ©ν λ¨κ³λ³ μ μ± μ΅μ νλ‘ κ΅¬μ±λλ©°, μμ΄μ νΈ μ€μ€λ‘ λ°μ΄ν°λ₯Ό μμ§νκ³ μ μ± μ λ°μ΄νΈλ₯Ό νκ²½κ³Ό λΆλ¦¬νμ¬ ν¨μ¨μ μΈ νμ΅μ κ°λ₯νκ² ν©λλ€. μ΄λ₯Ό ν΅ν΄ Ovis2.5-9B λͺ¨λΈμ GUI λ€λΉκ²μ΄μ λ° κ·ΈλΌμ΄λ© λ²€μΉλ§ν¬μμ λ°μ΄λ μ±λ₯μ λ¬μ±νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
MLLM κΈ°λ° GUI μμ΄μ νΈμ νμ΅ ν¨μ¨μ±μ ν¬κ² ν₯μμν€λ μλ‘μ΄ νλ μμν¬λ₯Ό μ μν©λλ€.
β’
μμ΄μ νΈ μ€μ€λ‘ λ°μ΄ν°λ₯Ό μμ±νκ³ μ μ± νμ΅μ μ΅μ ννμ¬ μ€μ νκ²½μμμ μ μ© κ°λ₯μ±μ λμ λλ€.
β’
μ μλ λ°©λ²μ΄ λ 볡μ‘νκ³ λμ μΈ GUI νκ²½μμ μΌλ§λ ν¨κ³Όμ μΌμ§μ λν μΆκ°μ μΈ κ²μ¦μ΄ νμν©λλ€.
PDF 보기
Made with Slashpage