Sign In

LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

Created by
  • Haebom
Category
Empty

μ €μž

Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” ν˜„μ‹€μ μ΄κ³  동적인 정보 검색 및 μ’…ν•© λŠ₯λ ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ 벀치마크인 LiveResearchBenchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이 λ²€μΉ˜λ§ˆν¬λŠ” 100개의 μ‚¬μš©μž 쀑심 μž‘μ—…μœΌλ‘œ κ΅¬μ„±λ˜μ–΄ 있으며, μ΅œμ‹  μ›Ή 정보λ₯Ό ν™œμš©ν•˜μ—¬ 심측적인 λ³΄κ³ μ„œλ₯Ό μƒμ„±ν•˜λŠ” AI μ—μ΄μ „νŠΈμ˜ λŠ₯λ ₯을 μ²΄κ³„μ μœΌλ‘œ ν‰κ°€ν•˜κΈ° μœ„ν•΄ κ³ μ•ˆλ˜μ—ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, λ³΄κ³ μ„œμ˜ λ‚΄μš©κ³Ό ν˜•μ‹μ„ μ’…ν•©μ μœΌλ‘œ ν‰κ°€ν•˜λŠ” DeepEval ν”„λ ˆμž„μ›Œν¬λ₯Ό λ„μž…ν•˜μ—¬ 17개의 μ΅œμ²¨λ‹¨ 연ꡬ μ‹œμŠ€ν…œμ„ ν‰κ°€ν•˜κ³  κ·Έ 강점과 약점을 λΆ„μ„ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‚¬μš©μž μ€‘μ‹¬μ˜ ν˜„μ‹€μ μΈ 정보λ₯Ό ν•„μš”λ‘œ ν•˜λŠ” AI μ—μ΄μ „νŠΈμ˜ 심측 연ꡬ λŠ₯λ ₯을 μ²΄κ³„μ μœΌλ‘œ 평가할 수 μžˆλŠ” κΈ°λ°˜μ„ λ§ˆλ ¨ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ΅œμ‹  μ›Ή 정보 검색 및 μ’…ν•©, 인용 기반 λ³΄κ³ μ„œ μƒμ„±μ΄λΌλŠ” AI μ—°κ΅¬μ˜ μ€‘μš”ν•œ 과제λ₯Ό ν•΄κ²°ν•˜λŠ” 데 κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ AI μ‹œμŠ€ν…œμ— λŒ€ν•œ 포괄적인 평가λ₯Ό 톡해 ν˜„μž¬ 기술의 ν•œκ³„μ™€ ν–₯ν›„ λ°œμ „ λ°©ν–₯을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
벀치마크 ꡬ좕에 μƒλ‹Ήν•œ 인적 μžμ›μ΄ νˆ¬μž…λ˜μ—ˆμœΌλ©°, ν‰κ°€μ˜ μ•ˆμ •μ„±κ³Ό 인간 νŒλ‹¨κ³Όμ˜ 높은 μΌμΉ˜λ„λ₯Ό ν™•λ³΄ν•˜κΈ° μœ„ν•œ λ…Έλ ₯이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘