Sign In

Can Post-Training Transform LLMs into Causal Reasoners?

Created by
  • Haebom
Category
Empty

μ €μž

Junqi Chen, Sirui Chen, Chaochao Lu

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 인과 μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄ νŒŒμ΄λ„ νŠœλ‹(post-training)의 효과λ₯Ό νƒκ΅¬ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ 7κ°€μ§€ 핡심 인과 과제λ₯Ό ν¬ν•¨ν•˜λŠ” 데이터셋 CauGym을 κ΅¬μΆ•ν•˜κ³  SFT, DPO, KTO, PPO, GRPO λ“± 5κ°€μ§€ νŒŒμ΄λ„ νŠœλ‹ 기법을 μ²΄κ³„μ μœΌλ‘œ ν‰κ°€ν–ˆμŠ΅λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, μ μ ˆν•œ νŒŒμ΄λ„ νŠœλ‹μ„ 톡해 μ†Œκ·œλͺ¨ LLM도 훨씬 큰 λͺ¨λΈμ— ν•„μ ν•˜κ±°λ‚˜ λŠ₯κ°€ν•˜λŠ” 인과 μΆ”λ‘  μ„±λŠ₯을 λ³΄μ—¬μ£Όμ—ˆμœΌλ©°, 특히 GRPO 기법을 μ μš©ν•œ 14B λͺ¨λΈμ€ CaLM λ²€μΉ˜λ§ˆν¬μ—μ„œ 93.5%의 높은 정확도λ₯Ό λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
νŒŒμ΄λ„ νŠœλ‹μ€ LLM의 인과 μΆ”λ‘  λŠ₯λ ₯을 효과적으둜 κ°•ν™”ν•˜λŠ” κ°•λ ₯ν•œ 도ꡬ이며, 이λ₯Ό 톡해 비ꡐ적 μž‘μ€ λͺ¨λΈλ‘œλ„ λ›°μ–΄λ‚œ μ„±λŠ₯을 얻을 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ CauGym 데이터셋은 LLM의 인과 μΆ”λ‘  λŠ₯λ ₯을 ν‰κ°€ν•˜κ³  κ°œμ„ ν•˜λŠ” 데 μžˆμ–΄ μ€‘μš”ν•œ μžμ›μ΄ 될 κ²ƒμž…λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” LLM 기반의 μ‹ λ’°ν•  수 있고 κ°•κ±΄ν•œ 인과 μΆ”λ‘  λͺ¨λΈ 개발 κ°€λŠ₯성을 μ œμ‹œν•˜λ©°, 특히 뢄포 λ³€ν™”λ‚˜ λ…Έμ΄μ¦ˆμ™€ 같은 μ‹€μ œ ν™˜κ²½μ—μ„œλ„ μš°μˆ˜ν•œ μΌλ°˜ν™” 및 강건성을 확보할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” λ”μš± λ³΅μž‘ν•˜κ³  λ‹€μ–‘ν•œ 인과 μΆ”λ‘  μ‹œλ‚˜λ¦¬μ˜€μ— λŒ€ν•œ LLM의 μ„±λŠ₯을 ν‰κ°€ν•˜κ³ , νŒŒμ΄λ„ νŠœλ‹ κΈ°λ²•μ˜ μ΅œμ ν™” 및 ν™•μž₯ λ°©μ•ˆμ„ λͺ¨μƒ‰ν•  ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘