Sign In

Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

Created by
  • Haebom
Category
Empty

μ €μž

Kailai Yang, Xiao Liu, Lei Ji, Hao Li, Xiao Liang, Zhiwei Liu, Yeyun Gong, Peng Cheng, Mao Yang

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ„ μƒˆλ‘œμš΄ 뢄야에 μ§€μ†μ μœΌλ‘œ 사전 ν•™μŠ΅μ‹œν‚¬ λ•Œ λ°œμƒν•˜λŠ” 치λͺ…적인 망각 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ 데이터 λ―Ήμ‹± μ—μ΄μ „νŠΈ(Data Mixing Agent)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이 μ—μ΄μ „νŠΈλŠ” κ°•ν™” ν•™μŠ΅μ„ 톡해 데이터 λ―Ήμ‹±μ˜ 졜적 λΉ„μœ¨μ„ μžλ™μœΌλ‘œ ν•™μŠ΅ν•˜λ©°, 이λ₯Ό 톡해 원본 λͺ¨λΈμ˜ λŠ₯λ ₯κ³Ό μƒˆλ‘œμš΄ λΆ„μ•Όμ—μ„œμ˜ μ„±λŠ₯을 κ· ν˜• 있게 μœ μ§€ν•©λ‹ˆλ‹€. μˆ˜ν•™μ  μΆ”λ‘  및 μ½”λ“œ 생성 λΆ„μ•Όμ—μ„œμ˜ μ‹€ν—˜ κ²°κ³Ό, μ œμ•ˆλœ 방법은 κΈ°μ‘΄ νœ΄λ¦¬μŠ€ν‹± 기반 방식보닀 μš°μˆ˜ν•œ μ„±λŠ₯을 보이며 λ›°μ–΄λ‚œ μΌλ°˜ν™” λŠ₯λ ₯을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
기쑴의 μˆ˜λ™μ μΈ 데이터 μž¬κ°€μ€‘μΉ˜ 방식을 λ²—μ–΄λ‚˜, κ°•ν™” ν•™μŠ΅ 기반의 μžλ™ν™”λœ 데이터 λ―Ήμ‹± μ „λž΅μ„ μ œμ‹œν•˜μ—¬ 지속적 사전 ν•™μŠ΅μ˜ νš¨μœ¨μ„±μ„ λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ λΆ„μ•Ό 및 λͺ¨λΈμ— λŒ€ν•œ λ›°μ–΄λ‚œ μΌλ°˜ν™” λŠ₯λ ₯을 보여주어, μ‹€μ œ μ‘μš©μ—μ„œμ˜ μœ μ—°μ„±κ³Ό μ‹€μš©μ„±μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν•™μŠ΅λœ μ—μ΄μ „νŠΈμ˜ κ°€μ€‘μΉ˜ κ²°μ • 방식이 μΈκ°„μ˜ 직관과 잘 λΆ€ν•©ν•˜λ©°, 더 적은 원본 λ°μ΄ν„°λ‘œλ„ μš°μˆ˜ν•œ λͺ¨λΈ μ„±λŠ₯을 달성할 수 μžˆμŒμ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.
β€’
κ°•ν™” ν•™μŠ΅ ν™˜κ²½ ꡬ좕 및 ν•™μŠ΅μ— ν•„μš”ν•œ λ°©λŒ€ν•œ μ–‘μ˜ 데이터 λ―Ήμ‹± ꢀ적 및 ν”Όλ“œλ°± 데이터 생성이 ν•™μŠ΅ λΉ„μš©μ„ μ¦κ°€μ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘