Sign In

OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Felix Henry, Xiaochen Lin, Jiangyou Zhu, Yangfan, Bingqian Zhang, Min Chen, Shiyu Huang

πŸ’‘ κ°œμš”

κΈ°μ‘΄ GUI μ—μ΄μ „νŠΈ λ²€μΉ˜λ§ˆν¬λŠ” 정적 μŠ€ν¬λ¦°μƒ·μ— μ˜μ‘΄ν–ˆμ§€λ§Œ, μ‹€μ œ 슀마트폰 μƒν˜Έμž‘μš©μ€ μŒμ„± 및 λ™μ˜μƒκ³Ό 같은 μ‹œκ°„μ , μŒμ„±μ  λ‹¨μ„œλ₯Ό ν•„μˆ˜μ μœΌλ‘œ μš”κ΅¬ν•©λ‹ˆλ‹€. λ³Έ 논문은 μ΄λŸ¬ν•œ 간극을 λ©”μš°κΈ° μœ„ν•΄ 정적 이미지, λ™κΈ°ν™”λœ μ˜€λ””μ˜€, λΉ„λ””μ˜€ 클립을 ν¬ν•¨ν•˜λŠ” μ˜΄λ‹ˆλͺ¨λ‹¬(omni-modal) μž…λ ₯ ν™˜κ²½μ—μ„œ GUI μ—μ΄μ „νŠΈλ₯Ό ν‰κ°€ν•˜λŠ” 졜초의 단계별 벀치마크인 OmniGUIλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. OmniGUIλŠ” 29개 μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ— 걸쳐 709개의 μ „λ¬Έκ°€ μ‹œμ—° μ—ν”Όμ†Œλ“œλ₯Ό 톡해, ν˜„μž¬ μ˜΄λ‹ˆλͺ¨λ‹¬ μ—μ΄μ „νŠΈ ν”„λ ˆμž„μ›Œν¬μ˜ 초기 λ‹¨κ³„μž„μ„ κ³ λ €ν•˜μ—¬ 기반 μ˜΄λ‹ˆλͺ¨λ‹¬ λͺ¨λΈμ„ μ‚¬μš©ν•˜μ—¬ κ²½ν—˜μ  평가λ₯Ό μˆ˜ν–‰ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‹€μ œ 슀마트폰 ν™˜κ²½κ³Ό μœ μ‚¬ν•œ μ˜΄λ‹ˆλͺ¨λ‹¬ μž…λ ₯을 ν†΅ν•©ν•˜μ—¬ GUI μ—μ΄μ „νŠΈ ν‰κ°€μ˜ ν˜„μ‹€μ„±μ„ λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
μ‹œκ°μ  μ •λ³΄λ§ŒμœΌλ‘œλŠ” λΆ€μ‘±ν•˜λ©°, λ™μ˜μƒ 및 μŒμ„± μ •λ³΄μ˜ 동기화 μ²˜λ¦¬κ°€ GUI μ—μ΄μ „νŠΈ μ„±λŠ₯에 μ€‘μš”ν•¨μ„ λ°ν˜”μŠ΅λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ˜΄λ‹ˆλͺ¨λ‹¬ λͺ¨λΈμ€ μ‹œκ°μ  정보에 κ°•ν•˜μ§€λ§Œ, μ‹œκ°„μ , μŒμ„±μ  μ‹ ν˜Έκ°€ κ²°ν•©λœ ν™˜κ²½μ—μ„œλŠ” μ„±λŠ₯이 μ €ν•˜λ˜λ©°, 특히 λ¬΄κ΄€ν•œ μ£Όλ³€ μ†ŒμŒμœΌλ‘œ μΈν•œ ꡐ차 λͺ¨λ‹¬ 간섭이 μ„±λŠ₯ μ €ν•˜μ˜ μ£Όμš” μ›μΈμž„μ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ κ³Όμ œλ‘œλŠ” μ˜΄λ‹ˆλͺ¨λ‹¬ GUI μ—μ΄μ „νŠΈ ν”„λ ˆμž„μ›Œν¬μ˜ λ°œμ „μ„ μ΄‰μ§„ν•˜κ³ , ꡐ차 λͺ¨λ‹¬ 간섭을 μ™„ν™”ν•˜λŠ” 더 μ •κ΅ν•œ λͺ¨λΈ 개발이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘