Sign In

CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents

Created by
  • Haebom
Category
Empty

μ €μž

Marta Sumyk, Oleksandr Kosovan

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λ°μŠ€ν¬ν†± ν™˜κ²½μ—μ„œ μžμ—°μ–΄ μ§€μ‹œμ— 따라 자율적으둜 μž‘μ—…μ„ μˆ˜ν–‰ν•˜λŠ” 컴퓨터 μ‚¬μš© μ—μ΄μ „νŠΈ(CUA)의 행동을 ν™•μž₯ κ°€λŠ₯ν•˜κ³  μ‹ λ’°ν•  수 있게 ν‰κ°€ν•˜λŠ” λ¬Έμ œμ— μ£Όλͺ©ν•©λ‹ˆλ‹€. 기쑴의 평가 방식은 ν˜„μ‹€ 세계 μ‚¬μš©κ³Ό 동떨어진 μ·¨μ•½ν•˜κ³  λΉ„μš©μ΄ 많이 λ“œλŠ” 단점이 μžˆμŠ΅λ‹ˆλ‹€. 이에 연ꡬ진은 λΉ„μ „-μ–Έμ–΄ λͺ¨λΈ(VLM)을 CUA의 μž‘μ—… μ™„λ£Œλ₯Ό 직접 ν‰κ°€ν•˜λŠ” 자율 κ°μ‚¬μžλ‘œ ν™œμš©ν•˜λŠ” λ°©μ•ˆμ„ μ œμ‹œν•˜κ³ , 5κ°€μ§€ VLM에 λŒ€ν•œ λŒ€κ·œλͺ¨ 메타 평가λ₯Ό μˆ˜ν–‰ν•˜μ—¬ μ •ν™•μ„±, 신뒰도 μΆ”μ •μ˜ 보정, λͺ¨λΈ κ°„ μΌμΉ˜λ„λ₯Ό λΆ„μ„ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ΅œμ‹  VLM은 CUA μž‘μ—… μ™„λ£Œ ν‰κ°€μ—μ„œ 높은 μ •ν™•μ„±κ³Ό 신뒰도λ₯Ό λ³΄μ΄μ§€λ§Œ, λ³΅μž‘ν•˜κ±°λ‚˜ 이질적인 ν™˜κ²½μ—μ„œλŠ” μ„±λŠ₯이 μ €ν•˜λ˜λŠ” κ²½ν–₯이 μžˆμŠ΅λ‹ˆλ‹€.
β€’
VLM κ°μ‚¬μž κ°„μ—λŠ” μƒλ‹Ήν•œ νŒλ‹¨ λΆˆμΌμΉ˜κ°€ κ΄€μ°°λ˜μ–΄, λͺ¨λΈ 기반 감사 λ°©μ‹μ˜ 근본적인 ν•œκ³„λ₯Ό λ“œλŸ¬λƒ…λ‹ˆλ‹€.
β€’
자율 CUA의 μ‹€μ œ ν™˜κ²½ 배포 μ‹œ ν‰κ°€μžμ˜ μ‹ λ’°μ„±, λΆˆν™•μ‹€μ„± 및 편차λ₯Ό λͺ…μ‹œμ μœΌλ‘œ κ³ λ €ν•΄μ•Ό ν•  ν•„μš”μ„±μ΄ κ°•μ‘°λ©λ‹ˆλ‹€.
πŸ‘