Sign In

Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

Created by
  • Haebom
Category
Empty

μ €μž

Yiwei Qin, Zhen Huang, Tiantian Mi, Weiye Si, Chenyang Zhou, Qipeng Guo, Siyuan Feng, Pengfei Liu

πŸ’‘ κ°œμš”

λ³Έ 논문은 νŒŒμš΄λ°μ΄μ…˜ λͺ¨λΈμ˜ μ„±λŠ₯을 μ’Œμš°ν•˜λŠ” 데이터 ν’ˆμ§ˆμ˜ μ€‘μš”μ„±μ—λ„ λΆˆκ΅¬ν•˜κ³  체계적인 처리 ν”„λ ˆμž„μ›Œν¬κ°€ λΆ€μ‘±ν•˜λ‹€λŠ” 문제λ₯Ό μ œκΈ°ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 연ꡬ진은 κ³ κΈ‰ λͺ¨λΈμ΄ μ°¨μ„ΈλŒ€ μ‹œμŠ€ν…œμ„ μœ„ν•œ μš°μˆ˜ν•œ 데이터λ₯Ό μƒμ‚°ν•˜λŠ” 데이터-λͺ¨λΈ 곡진화 κ°œλ…μ„ μ œμ‹œν•˜λŠ” 10단계 λΆ„λ₯˜ 체계(Data Darwinism)λ₯Ό μ œμ•ˆν–ˆμŠ΅λ‹ˆλ‹€. κ³Όν•™ λ¬Έν—Œμ„ λŒ€μƒμœΌλ‘œ 9000μ–΅ 토큰 규λͺ¨μ˜ Darwin-Science μ½”νΌμŠ€λ₯Ό κ΅¬μΆ•ν•˜μ—¬, 생성적 μ •μ œ(L4)와 인지적 μ™„μ„±(L5) 단계λ₯Ό 톡해 μ›μ‹œ κ³Όν•™ ν…μŠ€νŠΈμ˜ ν•™μŠ΅ κ°€λŠ₯μ„± 격차λ₯Ό ν•΄μ†Œν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
데이터 ν’ˆμ§ˆμ΄ νŒŒμš΄λ°μ΄μ…˜ λͺ¨λΈμ˜ μ„±λŠ₯에 결정적인 영ν–₯을 미치며, 체계적인 데이터 처리 ν”„λ ˆμž„μ›Œν¬μ˜ ν•„μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ Data Darwinism λΆ„λ₯˜ 체계와 Darwin-Science μ½”νΌμŠ€λŠ” κ³Όν•™ λ°μ΄ν„°μ˜ 잠재적 κ°€μΉ˜λ₯Ό 효과적으둜 λ°œν˜„ν•˜μ—¬ λͺ¨λΈ μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
Frontier LLMsλ₯Ό ν™œμš©ν•œ 데이터 μ •μ œ 단계(L4, L5)λŠ” λͺ¨λΈμ˜ μΆ”λ‘  및 μš©μ–΄ 이해 λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€λŠ” 데 κΈ°μ—¬ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” 데이터와 λͺ¨λΈμ˜ 곡진화적 κ°œλ°œμ„ μœ„ν•œ κΈ°λ°˜μ„ λ§ˆλ ¨ν•˜κ³ , Darwin-Science μ½”νΌμŠ€μ™€ daVinci-origin λͺ¨λΈμ„ κ³΅κ°œν•˜μ—¬ κ΄€λ ¨ 연ꡬλ₯Ό μ΄‰μ§„ν•©λ‹ˆλ‹€.
β€’
ν•œκ³„μ μœΌλ‘œλŠ” 10단계 λΆ„λ₯˜ 체계 쀑 L0-L5 λ‹¨κ³„κΉŒμ§€λ§Œ κ²€μ¦λ˜μ—ˆμœΌλ©°, ν–₯ν›„ 더 높은 μˆ˜μ€€μ˜ 데이터 μ²˜λ¦¬μ™€ λ‹€μ–‘ν•œ 뢄야에 λŒ€ν•œ ν™•μž₯ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘