Sign In

DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent

Created by
  • Haebom
Category
Empty

μ €μž

Tongzhou Wu, Yuhao Wang, Xinyu Ma, Xiuqiang He, Shuaiqiang Wang, Dawei Yin, Xiangyu Zhao

πŸ’‘ κ°œμš”

λ³Έ 논문은 심측 μ›Ή 탐색 및 질문 λ‹΅λ³€ λŠ₯λ ₯을 κ°–μΆ˜ λ”₯ λ¦¬μ„œμΉ˜ μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯ ν–₯상을 μœ„ν•΄ μ‹€μ œμ™€ μœ μ‚¬ν•œ λ‚œμ΄λ„λ₯Ό κ°€μ§„ λŒ€κ·œλͺ¨ 데이터셋인 DeepResearch-9K와 μ˜€ν”ˆμ†ŒμŠ€ ν•™μŠ΅ ν”„λ ˆμž„μ›Œν¬ DeepResearch-R1을 μ œμ•ˆν•©λ‹ˆλ‹€. DeepResearch-9KλŠ” 9,000개의 질문과 검증 κ°€λŠ₯ν•œ λ‹΅λ³€, μ΅œμ‹  λ”₯ λ¦¬μ„œμΉ˜ μ—μ΄μ „νŠΈμ˜ 탐색 경둜 및 μΆ”λ‘  과정을 ν¬ν•¨ν•˜λ©°, DeepResearch-R1은 닀단계 μ›Ή μƒν˜Έμž‘μš©, λ‹€μ–‘ν•œ κ°•ν™” ν•™μŠ΅ 방법, 그리고 μ—¬λŸ¬ 보상 λͺ¨λΈμ„ μ§€μ›ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ”₯ λ¦¬μ„œμΉ˜ μ—μ΄μ „νŠΈ 연ꡬ에 μ‹€μ§ˆμ μΈ 도전 과제λ₯Ό μ œκ³΅ν•˜λŠ” λŒ€κ·œλͺ¨ κ³ ν’ˆμ§ˆ λ°μ΄ν„°μ…‹μ˜ λΆ€μž¬λ₯Ό ν•΄κ²°ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ”₯ λ¦¬μ„œμΉ˜ μ—μ΄μ „νŠΈ ν•™μŠ΅μ„ μœ„ν•œ μœ μ—°ν•˜κ³  μ ‘κ·Ό κ°€λŠ₯ν•œ μ˜€ν”ˆμ†ŒμŠ€ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œκ³΅ν•˜μ—¬ 연ꡬ κ°œλ°œμ„ κ°€μ†ν™”ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ•ˆλœ 데이터셋과 ν”„λ ˆμž„μ›Œν¬λ₯Ό 톡해 λ”₯ λ¦¬μ„œμΉ˜ μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯을 ν˜„μž¬ 졜고 μˆ˜μ€€μœΌλ‘œ ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
데이터셋 ꡬ좕 νŒŒμ΄ν”„λΌμΈμ˜ μžλ™ν™” κ³Όμ •μ—μ„œ λ°œμƒν•  수 μžˆλŠ” 잠재적인 편ν–₯μ΄λ‚˜ 였λ₯˜μ— λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘