haebom
Sign In
LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild
Created by
Haebom
Category
Empty
μ μ
Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty
π‘ κ°μ
λ³Έ μ°κ΅¬λ νμ€μ μ΄κ³ λμ μΈ μ 보 κ²μ λ° μ’ ν© λ₯λ ₯μ νκ°νκΈ° μν μλ‘μ΄ λ²€μΉλ§ν¬μΈ LiveResearchBenchλ₯Ό μ μν©λλ€. μ΄ λ²€μΉλ§ν¬λ 100κ°μ μ¬μ©μ μ€μ¬ μμ μΌλ‘ ꡬμ±λμ΄ μμΌλ©°, μ΅μ μΉ μ 보λ₯Ό νμ©νμ¬ μ¬μΈ΅μ μΈ λ³΄κ³ μλ₯Ό μμ±νλ AI μμ΄μ νΈμ λ₯λ ₯μ 체κ³μ μΌλ‘ νκ°νκΈ° μν΄ κ³ μλμμ΅λλ€. λν, λ³΄κ³ μμ λ΄μ©κ³Ό νμμ μ’ ν©μ μΌλ‘ νκ°νλ DeepEval νλ μμν¬λ₯Ό λμ νμ¬ 17κ°μ μ΅μ²¨λ¨ μ°κ΅¬ μμ€ν μ νκ°νκ³ κ·Έ κ°μ κ³Ό μ½μ μ λΆμνμ΅λλ€.
π μμ¬μ λ° νκ³
β’
μ¬μ©μ μ€μ¬μ νμ€μ μΈ μ 보λ₯Ό νμλ‘ νλ AI μμ΄μ νΈμ μ¬μΈ΅ μ°κ΅¬ λ₯λ ₯μ 체κ³μ μΌλ‘ νκ°ν μ μλ κΈ°λ°μ λ§λ ¨νμ΅λλ€.
β’
μ΅μ μΉ μ 보 κ²μ λ° μ’ ν©, μΈμ© κΈ°λ° λ³΄κ³ μ μμ±μ΄λΌλ AI μ°κ΅¬μ μ€μν κ³Όμ λ₯Ό ν΄κ²°νλ λ° κΈ°μ¬ν©λλ€.
β’
λ€μν AI μμ€ν μ λν ν¬κ΄μ μΈ νκ°λ₯Ό ν΅ν΄ νμ¬ κΈ°μ μ νκ³μ ν₯ν λ°μ λ°©ν₯μ μ μν©λλ€.
β’
λ²€μΉλ§ν¬ ꡬμΆμ μλΉν μΈμ μμμ΄ ν¬μ λμμΌλ©°, νκ°μ μμ μ±κ³Ό μΈκ° νλ¨κ³Όμ λμ μΌμΉλλ₯Ό ν보νκΈ° μν λ Έλ ₯μ΄ νμν©λλ€.
PDF 보기
Made with Slashpage