Sign In

Scaling Web Agent Training through Automatic Data Generation and Fine-grained Evaluation

Created by
  • Haebom
Category
Empty

μ €μž

Lajanugen Logeswaran, Jaekyeom Kim, Sungryull Sohn, Creighton Glasscock, Honglak Lee

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ›Ή μ—μ΄μ „νŠΈ ν›ˆλ ¨μ„ μœ„ν•œ κ³ ν’ˆμ§ˆ 데이터셋 μžλ™ 생성 및 μ„Έλ°€ν•œ 평가 방법둠을 μ œμ•ˆν•©λ‹ˆλ‹€. 특히, 과제 μ™„λ£Œλ₯Ό ν–₯ν•œ μ§„ν–‰ 상황을 μ •λŸ‰ν™”ν•˜λŠ” 'ꢀ적 평가'의 어렀움을 ν•΄μ†Œν•˜κΈ° μœ„ν•΄ μ œμ•½ 쑰건 기반의 μƒˆλ‘œμš΄ 평가 ν”„λ ˆμž„μ›Œν¬λ₯Ό λ„μž…ν•˜μ—¬ λΆ€λΆ„μ μœΌλ‘œ μ„±κ³΅ν•œ κΆ€μ κΉŒμ§€ ν™œμš© κ°€λŠ₯ν•œ ν›ˆλ ¨ λ°μ΄ν„°μ˜ 양을 크게 ν™•μž₯ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 20개 인기 μ›Ήμ‚¬μ΄νŠΈμ˜ λ³΅μž‘ν•œ μ˜ˆμ•½ 과제λ₯Ό ν¬ν•¨ν•˜λŠ” μƒˆλ‘œμš΄ 벀치마크인 BookingArenaμ—μ„œ κ²€μ¦λœ κ²°κ³Ό, μ œμ•ˆλœ λ°©λ²•λ‘ μœΌλ‘œ ν›ˆλ ¨λœ μ†Œν˜• λͺ¨λΈμ΄ μ˜€ν”ˆμ†ŒμŠ€ μ ‘κ·Ό 방식보닀 μš°μˆ˜ν•˜κ³  μƒμš© μ‹œμŠ€ν…œκ³Ό λ™λ“±ν•˜κ±°λ‚˜ 더 λ‚˜μ€ μ„±λŠ₯을 λ³΄μž„μ„ μž…μ¦ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λŒ€κ·œλͺ¨μ˜ λ‹€μ–‘ν•˜κ³  ν˜„μ‹€μ μΈ μ›Ή μƒν˜Έμž‘μš© 데이터셋을 효율적으둜 ꡬ좕할 수 μžˆλŠ” μžλ™ν™”λœ νŒŒμ΄ν”„λΌμΈμ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
λ³΅μž‘ν•œ κ΅¬μ‘°ν™”λœ μ›Ή κ³Όμ œμ— λŒ€ν•œ 체계적인 평가 방법둠을 μ œμ‹œν•˜μ—¬, μ—μ΄μ „νŠΈ ν›ˆλ ¨μ˜ μ„±λŠ₯ ν–₯상에 κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 평가 ν”„λ ˆμž„μ›Œν¬κ°€ λ‹€μ–‘ν•œ μœ ν˜•μ˜ μ›Ή 기반 κ³Όμ œμ— μ–Όλ§ˆλ‚˜ μΌλ°˜ν™”λ  수 μžˆλŠ”μ§€μ— λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘