Sign In

WARC-Bench: Web Archive Based Benchmark for GUI Subtask Executions

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Sanjari Srivastava, Gang Li, Cheng Chang, Rishu Garg, Manpreet Kaur, Charlene Y. Lee, Yuezhang Li, Yining Mao, Ignacio Cases, Yanan Xie, Peng Qi

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ³΅μž‘ν•œ μ‹€μ œ μ›Ήμ‚¬μ΄νŠΈλ₯Ό νƒμƒ‰ν•˜λŠ” μ›Ή μ—μ΄μ „νŠΈμ—κ²Œ ν•„μˆ˜μ μΈ 'ν•˜μœ„ μž‘μ—…(subtasks)' μˆ˜ν–‰ λŠ₯λ ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ 벀치마크인 WARC-Benchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. WARC-BenchλŠ” μ›Ή μ•„μΉ΄μ΄λΈŒ νŒŒμΌμ„ ν™œμš©ν•˜μ—¬ 438개의 동적이고 ν˜„μ‹€μ μΈ μ›ΉνŽ˜μ΄μ§€ μƒν˜Έμž‘μš© ν•˜μœ„ μž‘μ—…λ“€μ„ ν¬ν•¨ν•˜λ©°, μ΅œμ²¨λ‹¨ λͺ¨λΈλ“€μ‘°μ°¨ 64.8%의 성곡λ₯ μ— κ·ΈμΉ  μ •λ„λ‘œ 높은 λ‚œμ΄λ„λ₯Ό λ³΄μ—¬μ€λ‹ˆλ‹€. λ³Έ μ—°κ΅¬λŠ” λ˜ν•œ 감독 ν•™μŠ΅ λ―Έμ„Έ μ‘°μ •(SFT)κ³Ό 검증 κ°€λŠ₯ν•œ 보상을 μ΄μš©ν•œ κ°•ν™” ν•™μŠ΅(RLVR) 기법을 μ‹€ν—˜ν•˜μ—¬, 특히 데이터가 λΆ€μ‘±ν•œ μƒν™©μ—μ„œλ„ RLVR이 SFT λͺ¨λΈμ˜ μ„±λŠ₯을 52.8%κΉŒμ§€ ν–₯μƒμ‹œμΌœ μ΅œμ „μ„  λͺ¨λΈλ“€μ„ λŠ₯가함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ›Ή μ—μ΄μ „νŠΈμ˜ μ‹€μ œ μ›Ήμ‚¬μ΄νŠΈ 탐색 λŠ₯λ ₯ ν–₯상을 μœ„ν•΄μ„œλŠ” λ‹€μ–‘ν•œ UI ꡬ성 μš”μ†Œμ™€μ˜ μƒν˜Έμž‘μš©μ„ ν¬ν•¨ν•˜λŠ” ν•˜μœ„ μž‘μ—… μˆ˜ν–‰ λŠ₯λ ₯ 평가가 맀우 μ€‘μš”ν•˜λ‹€λŠ” 것을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
WARC-BenchλŠ” μ›Ή μ—μ΄μ „νŠΈμ˜ ν•˜μœ„ μž‘μ—… μˆ˜ν–‰ λŠ₯λ ₯ 평가λ₯Ό μœ„ν•œ 독창적이고 도전적인 벀치마크λ₯Ό μ œκ³΅ν•˜λ©°, κΈ°μ‘΄ λ²€μΉ˜λ§ˆν¬λ“€μ΄ κ°„κ³Όν–ˆλ˜ 뢀뢄을 λ³΄μ™„ν•©λ‹ˆλ‹€.
β€’
데이터가 λΆ€μ‘±ν•œ μƒν™©μ—μ„œλ„ RLVR이 SFT λŒ€λΉ„ μ›Ή μ—μ΄μ „νŠΈμ˜ ν•˜μœ„ μž‘μ—… μˆ˜ν–‰ μ„±λŠ₯을 μœ μ˜λ―Έν•˜κ²Œ ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ 보여주어, ν–₯ν›„ λͺ¨λΈ κ°œλ°œμ— λŒ€ν•œ λ°©ν–₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
κΈ°μ‘΄ λ²€μΉ˜λ§ˆν¬λ“€μ΄ ν•˜μœ„ μž‘μ—… μˆ˜ν–‰ λŠ₯λ ₯을 μΆ©λΆ„νžˆ ν‰κ°€ν•˜μ§€ λͺ»ν•œλ‹€λŠ” 점이 ν•œκ³„λ‘œ μ§€μ λ˜λ©°, μ•žμœΌλ‘œ 더 λ§Žμ€ ν•˜μœ„ μž‘μ—…λ“€μ„ ν¬ν•¨ν•˜λŠ” 벀치마크 개발 및 μ΅œμ²¨λ‹¨ λͺ¨λΈλ“€μ˜ μ„±λŠ₯ κ°œμ„  연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘