Sign In

Closing the Distribution Gap in Adversarial Training for LLMs

Created by
  • Haebom
Category
Empty

μ €μž

Chengzhi Hu, Jonas Dornbusch, David Ludke, Stephan Gunnemann, Leo Schwinn

πŸ’‘ κ°œμš”

이 논문은 κ±°λŒ€ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μ λŒ€μ  ν›ˆλ ¨μ—μ„œ λ°œμƒν•˜λŠ” 배포 간격(distribution gap) 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. κΈ°μ‘΄ 방법둠은 ν›ˆλ ¨ 데이터셋에 λŒ€ν•΄μ„œλ§Œ μ λŒ€μ  손싀을 μ΅œμ†Œν™”ν•˜μ—¬, ν›ˆλ ¨ 데이터 뢄포λ₯Ό μΆ©λΆ„νžˆ 닀루지 λͺ»ν•΄ κ°„λ‹¨ν•œ 곡격에도 μ·¨μ•½ν•˜λ‹€λŠ” ν•œκ³„λ₯Ό μ§€μ ν•©λ‹ˆλ‹€. 이λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄, ν™•μ‚° λͺ¨λΈ(Diffusion LLMs)을 ν™œμš©ν•˜μ—¬ ν”„λ‘¬ν”„νŠΈμ™€ μ‘λ‹΅μ˜ μ‹€μ œ κ²°ν•© 뢄포λ₯Ό κ·Όμ‚¬ν•˜κ³ , 이λ₯Ό λ°”νƒ•μœΌλ‘œ λ‹€μ–‘ν•˜κ³  높은 ν™•λ₯ μ˜ μƒ˜ν”Œμ„ μƒμ„±ν•˜λŠ” 뢄포적 μ λŒ€μ  ν›ˆλ ¨(Distributional Adversarial Training, DAT) 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. DATλŠ” 데이터 뢄포에 λŒ€ν•œ μ΅œμ ν™”μ™€ 연속적인 μ λŒ€μ  ν›ˆλ ¨μ„ κ²°ν•©ν•˜μ—¬ κΈ°μ‘΄ 방법둠보닀 훨씬 높은 μˆ˜μ€€μ˜ μ λŒ€μ  강건성을 λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 μ λŒ€μ  ν›ˆλ ¨μ—μ„œ λ°œμƒν•˜λŠ” 배포 간격 λ¬Έμ œκ°€ λͺ¨λΈμ˜ 취약성에 λŒ€ν•œ κ·Όλ³Έ μ›μΈμž„μ„ 규λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν™•μ‚° λͺ¨λΈμ„ ν™œμš©ν•˜μ—¬ 데이터 뢄포λ₯Ό 효과적으둜 κ·Όμ‚¬ν•˜κ³ , 이λ₯Ό 톡해 λͺ¨λΈμ˜ μΌλ°˜ν™” μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” μƒˆλ‘œμš΄ μ λŒ€μ  ν›ˆλ ¨ 방법둠(DAT)을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
DATλŠ” κΈ°μ‘΄ μ λŒ€μ  ν›ˆλ ¨ 기법 λŒ€λΉ„ μƒλ‹Ήν•œ μˆ˜μ€€μ˜ μ λŒ€μ  강건성 ν–₯상을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” DAT λ°©λ²•λ‘ μ˜ νš¨μœ¨μ„±μ„ λ”μš± 높이고, λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 곡격 μœ ν˜•μ— λŒ€ν•œ 적용 κ°€λŠ₯성을 탐ꡬ할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘