Sign In

SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows?

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Kean Shi, Zihang Li, Tianyi Ma, Zengji Tu, Jialong Wu, Xinbo Xu, Qingyao Yang, Ruoyu Wu, Weichu Xie, Ming Wu, Jason Zeng, Michael Heinrich, Elvis Zhang, Liang Chen, Kuan Li, Baobao Chang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μ‹€μ œ 업무 ν™˜κ²½μ—μ„œ 컴퓨터 μ‚¬μš© μ—μ΄μ „νŠΈ(CUA)의 λŠ₯λ ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•΄ SaaS(Software-as-a-Service) ν™˜κ²½μ„ 기반으둜 ν•œ μƒˆλ‘œμš΄ 벀치마크인 SaaS-Benchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. SaaS-BenchλŠ” 6개 μ „λ¬Έ λΆ„μ•Όμ˜ 23개 SaaS μ‹œμŠ€ν…œμ„ ν™œμš©ν•˜μ—¬ ν˜„μ‹€μ μΈ 업무 μ‹œλ‚˜λ¦¬μ˜€λ₯Ό λ°˜μ˜ν•œ 106개의 μž₯κΈ° μ‹€ν–‰ μž‘μ—…μœΌλ‘œ κ΅¬μ„±λ©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, ν˜„μž¬ LLM 기반 μ—μ΄μ „νŠΈλ“€μ€ κ³„νš, μƒνƒœ 좔적, μ• ν”Œλ¦¬μΌ€μ΄μ…˜ κ°„ μ»¨ν…μŠ€νŠΈ μœ μ§€, 였λ₯˜ 볡ꡬ λ“±μ—μ„œ 어렀움을 κ²ͺ으며, λŒ€λΆ€λΆ„μ˜ μž‘μ—…μ„ μ„±κ³΅μ μœΌλ‘œ μ™„λ£Œν•˜μ§€ λͺ»ν•˜λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‹€μ œ 업무 ν™˜κ²½κ³Ό μœ μ‚¬ν•œ λ³΅μž‘ν•˜κ³  μž₯기적인 μž‘μ—…μ„ 톡해 CUA의 μ‹€μ§ˆμ μΈ λŠ₯λ ₯을 평가할 수 μžˆλŠ” μƒˆλ‘œμš΄ 벀치마크λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬ LLM 기반 μ—μ΄μ „νŠΈλ“€μ΄ ν˜„μ‹€μ μΈ μ „λ¬Έ μ›Œν¬ν”Œλ‘œμš°λ₯Ό μ²˜λ¦¬ν•˜λŠ” 데 μƒλ‹Ήν•œ ν•œκ³„κ°€ μžˆμŒμ„ λͺ…ν™•νžˆ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
ν–₯ν›„ CUA μ—°κ΅¬λŠ” λ‹¨μˆœν•œ ν…μŠ€νŠΈ κΈ°λ°˜μ„ λ„˜μ–΄ μ‹€μ œ SaaS ν™˜κ²½μ—μ„œ λ³΅μž‘ν•œ μž‘μ—…μ„ μˆ˜ν–‰ν•˜κΈ° μœ„ν•œ κ³„νš, μƒνƒœ 관리, λ©€ν‹°λͺ¨λ‹¬ 이해, 였λ₯˜ 처리 λŠ₯λ ₯을 κ°•ν™”ν•˜λŠ” λ°©ν–₯으둜 λ‚˜μ•„κ°€μ•Ό ν•©λ‹ˆλ‹€.
πŸ‘