Sign In

DiagEval: Trajectory-Conditioned Diagnosis for Reliable Software Evaluation with GUI Agents

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Sirui Hong, Zhijie Liu, Tengfei Li, Wei Tao, Yifan Wu, Chenglin Wu

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)둜 μƒμ„±λœ μΈν„°λž™ν‹°λΈŒ μ†Œν”„νŠΈμ›¨μ–΄λ₯Ό 평가할 λ•Œ, 정적 λΆ„μ„λ§ŒμœΌλ‘œλŠ” λΆ€μ‘±ν•˜λ©° μ‹€μ œ μ‹€ν–‰ ν™˜κ²½μ—μ„œμ˜ 평가가 ν•„μˆ˜μ μž…λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ GUI μ—μ΄μ „νŠΈλ₯Ό μ΄μš©ν•œ ν‰κ°€λŠ” 단일 μ‹€ν–‰ 경둜만 κ΄€μ°°ν•  수 μžˆμ–΄, μ‹€νŒ¨ μ‹œ 평가 였λ₯˜μΈμ§€ μ‹€μ œ μ†Œν”„νŠΈμ›¨μ–΄ 결함인지 λͺ¨ν˜Έν•΄μ§€λŠ” λ¬Έμ œκ°€ λ°œμƒν•©λ‹ˆλ‹€. λ³Έ λ…Όλ¬Έμ—μ„œλŠ” μ‹€νŒ¨ν•œ μ‹€ν–‰ ꢀ적을 μž¬ν™œμš©ν•˜μ—¬ 진단 탐색을 μˆ˜ν–‰ν•˜κ³  κ²°κ³Όλ₯Ό μ§‘κ³„ν•˜λŠ” 'DiagEval'μ΄λΌλŠ” μƒˆλ‘œμš΄ ꢀ적 쑰건뢀 진단 평가 ν”„λ‘œν† μ½œμ„ μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
GUI μ—μ΄μ „νŠΈ 기반 μ†Œν”„νŠΈμ›¨μ–΄ ν‰κ°€μ—μ„œ μ‹€νŒ¨ 원인 λΆ„μ„μ˜ λͺ¨ν˜Έμ„±μ„ ν•΄κ²°ν•˜λŠ” 효과적인 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ‹€νŒ¨ν•œ ꢀ적을 ν™œμš©ν•˜μ—¬ 평가 였λ₯˜μ™€ μ†Œν”„νŠΈμ›¨μ–΄ 결함을 효과적으둜 κ΅¬λ³„ν•¨μœΌλ‘œμ¨ 평가 정확도λ₯Ό 크게 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ DiagEval은 잠재적 UI μƒνƒœ μ „ν™˜ κ·Έλž˜ν”„λ₯Ό 직접 μž¬κ΅¬μ„±ν•˜κ±°λ‚˜ ν™•λ₯ μ„ μΆ”μ •ν•˜μ§€ μ•Šμ•„ μ‹€μš©μ μ΄λ©°, λ‹€μ–‘ν•œ GUI μ—μ΄μ „νŠΈ 및 LLM 백본에 적용 κ°€λŠ₯ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” GUI μ—μ΄μ „νŠΈ 기반 ν‰κ°€μ—μ„œ λ‹¨μˆœνžˆ μ‹€ν–‰ λŠ₯λ ₯을 κ°•ν™”ν•˜λŠ” 것을 λ„˜μ–΄, λŠ₯동적인 μ‹€νŒ¨ 진단을 톡해 ν‰κ°€μ˜ 신뒰성을 λ†’μ΄λŠ” μ€‘μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
πŸ‘