DRS-GUI: Dynamic Region Search for Training-Free GUI Grounding

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
λΉ„μ–΄ 있음

μ €μž

Yichao Liu, Huawen Shen, Liu Yu, Shiyu Liu, Zeyu Chen, Yu Zhou

πŸ’‘ κ°œμš”

λ³Έ 논문은 고해상도 GUI μŠ€ν¬λ¦°μƒ·μ—μ„œ μ‚¬μš©μžμ˜ μ§€μ‹œμ™€ κ΄€λ ¨λœ μ˜μ—­μ„ μ •ν™•ν•˜κ²Œ μ‹λ³„ν•˜λŠ” 어렀움을 ν•΄κ²°ν•˜κΈ° μœ„ν•΄ ν›ˆλ ¨ 없이 μ‚¬μš©ν•  수 μžˆλŠ” 동적 μ˜μ—­ 탐색 ν”„λ ˆμž„μ›Œν¬μΈ DRS-GUIλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. DRS-GUIλŠ” μΈκ°„μ˜ 인지 과정을 λͺ¨λ°©ν•˜μ—¬ 'Focus', 'Shift', 'Scatter'와 같은 μ„Έ κ°€μ§€ 지각 λ™μž‘μ„ μˆ˜ν–‰ν•˜λŠ” κ²½λŸ‰ UI Perceptor와, μ΄λŸ¬ν•œ λ™μž‘μ„ λ™μ μœΌλ‘œ μŠ€μΌ€μ€„λ§ν•˜λŠ” MCTS 기반 Action Plannerλ₯Ό λ„μž…ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 λΆˆν•„μš”ν•œ UI μš”μ†Œλ₯Ό 효과적으둜 μ œκ±°ν•˜κ³  μ§€μ‹œμ™€ κ°€μž₯ 관련성이 높은 μ˜μ—­μ„ 효율적으둜 μ°Ύμ•„λ‚΄μ–΄ GUI μ ‘μ§€ μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κΈ°μ‘΄ MLLM에 μ‰½κ²Œ 톡합 κ°€λŠ₯ν•˜μ—¬ λ³„λ„μ˜ ν›ˆλ ¨ 없이 GUI μ ‘μ§€ μ„±λŠ₯을 14% ν–₯μƒμ‹œν‚€λŠ” ν›ˆλ ¨ μ—†λŠ”(training-free) 동적 탐색 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μΈκ°„μ˜ μ‹œκ°μ  탐색 방식을 λͺ¨λ°©ν•œ 지각 λ™μž‘κ³Ό MCTS 기반 μ•‘μ…˜ ν”Œλž˜λ„ˆλ₯Ό 톡해 λ³΅μž‘ν•œ GUI ν™˜κ²½μ—μ„œ κ΄€λ ¨ μ˜μ—­μ„ 효율적으둜 μ°Ύμ•„λ‚΄λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 일반적인 MLLMκ³Ό GUI νŠΉν™” MLLM λͺ¨λ‘μ— 효과적이며, μ „λ°˜μ μΈ μ ‘μ§€ μ„±λŠ₯κ³Ό μΌλ°˜ν™” λŠ₯λ ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” λ³΅μž‘ν•œ UIμ—μ„œ λ°œμƒν•˜λŠ” λ…Έμ΄μ¦ˆμ™€ κ΄€λ ¨ μ—†λŠ” μš”μ†Œλ₯Ό 효과적으둜 μ²˜λ¦¬ν•˜λŠ” 데 쀑점을 λ‘μ—ˆμœΌλ‚˜, λ‹€μ–‘ν•œ μ’…λ₯˜μ˜ GUI μš”μ†Œλ‚˜ λ³΅μž‘ν•œ μƒν˜Έμž‘μš©μ— λŒ€ν•œ 심측적인 탐색 λŠ₯λ ₯은 ν–₯ν›„ 연ꡬ 과제둜 λ‚¨μŠ΅λ‹ˆλ‹€.
πŸ‘