Sign In

See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch

Created by
  • Haebom
Category
Empty

μ €μž

Xingyi Zhang, Yulei Ye, Kaifeng Huang, Wenhao Li, Xiangfeng Wang

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ €μ½”λ“œ ꡐ윑의 핡심인 Scratch와 같은 블둝 기반 ν”„λ‘œκ·Έλž˜λ° ν™˜κ²½μ—μ„œ GUIλ₯Ό 톡해 ν”„λ‘œκ·Έλž¨μ„ κ΅¬μ„±ν•˜λŠ” AI μ—μ΄μ „νŠΈμ˜ λŠ₯λ ₯을 ν‰κ°€ν•˜λŠ” 연ꡬ가 λ―Έν‘ν•˜λ‹€λŠ” λ¬Έμ œμ˜μ‹μ—μ„œ μΆœλ°œν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ GUI μ—μ΄μ „νŠΈμ˜ λ©€ν‹°λͺ¨λ‹¬ λŠ₯λ ₯을 ν‰κ°€ν•˜λŠ” 벀치마크인 ScratchWorldλ₯Ό μ œμ•ˆν•˜λ©°, λ‹€μ–‘ν•œ λ‚œμ΄λ„μ™€ μœ ν˜•μ˜ 83κ°€μ§€ 과제λ₯Ό 톡해 μ •λ°€ν•œ 평가와 μ‹€νŒ¨ 원인 뢄석을 μˆ˜ν–‰ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, μ΅œμ‹  λ©€ν‹°λͺ¨λ‹¬ μ–Έμ–΄ λͺ¨λΈ 및 GUI μ—μ΄μ „νŠΈλ“€μ΄ κ³„νš λŠ₯λ ₯은 λ›°μ–΄λ‚˜μ§€λ§Œ, λ―Έμ„Έν•œ GUI μ‘°μž‘μ—μ„œ μƒλ‹Ήν•œ μ„±λŠ₯ 격차λ₯Ό λ³΄μž„μ„ λ°ν˜”μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
Scratch와 같은 μ‹œκ°μ  ν”„λ‘œκ·Έλž˜λ° ν™˜κ²½μ—μ„œ AI μ—μ΄μ „νŠΈμ˜ μ‹€μ œ μž‘λ™ λŠ₯λ ₯(acting)을 ν‰κ°€ν•˜κΈ° μœ„ν•œ 체계적인 벀치마크의 ν•„μš”μ„±μ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
GUI μ‘°μž‘μ˜ λ³΅μž‘μ„±κ³Ό μΆ”λ‘  λŠ₯λ ₯의 뢄리λ₯Ό 톡해 AI μ—μ΄μ „νŠΈμ˜ 강점과 약점을 λͺ…ν™•νžˆ 진단할 수 μžˆλŠ” 평가 방법둠을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ œμ‹œλœ λ²€μΉ˜λ§ˆν¬μ™€ 평가 ν”„λ‘œν† μ½œμ€ ν–₯ν›„ λ‹€μ–‘ν•œ μ‹œκ°μ  μΈν„°νŽ˜μ΄μŠ€μ—μ„œμ˜ AI μ—μ΄μ „νŠΈ 연ꡬ 및 κ°œλ°œμ— κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν˜„μž¬ μƒνƒœμ—μ„œλŠ” μ΅œμ‹  λͺ¨λΈλ“€λ„ λ―Έμ„Έν•œ GUI μ‘°μž‘μ— 어렀움을 κ²ͺλŠ”λ‹€λŠ” μ μ—μ„œ, μ΄λŸ¬ν•œ visuomotor control 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘