Sign In

TimeWarp: Evaluating Web Agents by Revisiting the Past

Created by
  • Haebom
Category
Empty

μ €μž

Md Farhan Ishmam, Kenneth Marino

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μ§„ν™”ν•˜λŠ” μ›Ή ν™˜κ²½μ—μ„œ μ›Ή μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•΄ TimeWarpλΌλŠ” μƒˆλ‘œμš΄ 벀치마크λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. TimeWarpλŠ” λ‹€μ–‘ν•œ UI 버전과 λ³΅μž‘ν•œ μž‘μ—…μœΌλ‘œ κ΅¬μ„±λœ ν™˜κ²½μ„ 톡해 μ›Ή μ—μ΄μ „νŠΈκ°€ μ›Ή 변화에 μ–Όλ§ˆλ‚˜ μ·¨μ•½ν•œμ§€ 보여주며, 이λ₯Ό κ°œμ„ ν•˜κΈ° μœ„ν•΄ μ—¬λŸ¬ λ²„μ „μ˜ 데이터λ₯Ό ν™œμš©ν•˜λŠ” TimeTraj μ•Œκ³ λ¦¬μ¦˜μ„ μ œμ‹œν•©λ‹ˆλ‹€. TimeTrajλŠ” ν”Œλžœ 증λ₯˜λ₯Ό μ‚¬μš©ν•˜μ—¬ ꡐ사 둀아웃을 톡해 μ—¬λŸ¬ λ²„μ „μ˜ ꢀ적을 μˆ˜μ§‘ν•˜κ³  ν›ˆλ ¨ν•¨μœΌλ‘œμ¨ μ›Ή μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν˜„μž¬ μ›Ή μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯은 μ›Ή UI 변화에 맀우 μ·¨μ•½ν•˜λ©°, 단일 버전 ꢀ적 기반의 행동 볡제(BC) ν•™μŠ΅ 방식은 μΌλ°˜ν™” μ„±λŠ₯에 ν•œκ³„κ°€ μžˆμŠ΅λ‹ˆλ‹€.
β€’
TimeTraj μ•Œκ³ λ¦¬μ¦˜μ€ ν”Œλžœ 증λ₯˜λ₯Ό 톡해 μ—¬λŸ¬ λ²„μ „μ˜ μ›Ή ν™˜κ²½μ—μ„œ ꢀ적을 효율적으둜 μˆ˜μ§‘ν•˜κ³  이λ₯Ό 기반으둜 ν›ˆλ ¨ν•˜μ—¬ μ—μ΄μ „νŠΈμ˜ 견고성을 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
TimeWarp λ²€μΉ˜λ§ˆν¬λŠ” μ›Ή μ—μ΄μ „νŠΈ μ—°κ΅¬μ—μ„œ UI λ””μžμΈ 변화에 λŒ€ν•œ μΌλ°˜ν™” λŠ₯λ ₯을 μ—°κ΅¬ν•˜κ³ , ꢀ적이 μ•„λ‹Œ ν”Œλžœμ„ μˆ˜μ§‘ν•˜λŠ” μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„μ„ μ—΄μ–΄ μ›Ή μ—μ΄μ „νŠΈμ˜ 견고성을 κ°œμ„ ν•˜λŠ” 데 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ TimeTraj μ•Œκ³ λ¦¬μ¦˜μ˜ λ³΅μž‘μ„±κ³Ό ν™•μž₯μ„±, 그리고 λ‹€μ–‘ν•œ μ›Ή μ—μ΄μ „νŠΈ λͺ¨λΈμ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘