Sign In

PermaFrost-Attack: Stealth Pretraining Seeding(SPS) for planting Logic Landmines During LLM Training

Created by
  • Haebom
Category
Empty

μ €μž

Harsh Kumar, Rahul Maity, Tanmay Joshi, Aman Chadha, Vinija Jain, Suranjana Trivedy, Amitava Das

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) ν•™μŠ΅ κ³Όμ •μ—μ„œ λ―Έμ„Έν•œ μ–‘μ˜ 독성 데이터λ₯Ό μ€λ°€ν•˜κ²Œ μ£Όμž…ν•˜λŠ” 'Stealth Pretraining Seeding(SPS)' 곡격 λͺ¨λΈμΈ 'PermaFrost-Attack'을 μ œμ•ˆν•©λ‹ˆλ‹€. 이 곡격은 ν•™μŠ΅ 데이터 μˆ˜μ§‘ κ³Όμ •μ—μ„œ νƒμ§€ν•˜κΈ° μ–΄λ ΅κ³ , 일반적인 ν‰κ°€λ‘œλŠ” μˆ¨κ²¨μ§„ 채 μœ μ§€λ˜λ‹€κ°€ νŠΉμ • νŠΈλ¦¬κ±°μ— μ˜ν•΄ ν™œμ„±ν™”λ˜μ–΄ λͺ¨λΈμ— 잠재적인 μœ„ν—˜ 행동을 μœ λ°œν•©λ‹ˆλ‹€. 연ꡬ진은 이λ₯Ό νƒμ§€ν•˜κΈ° μœ„ν•œ μ„Έ κ°€μ§€ κΈ°ν•˜ν•™μ  진단 기법을 κ°œλ°œν•˜κ³ , μ‹€μ œ λͺ¨λΈμ—μ„œ μ΄λŸ¬ν•œ 잠재적 μœ„ν—˜ 행동이 μ§€μ†μ μœΌλ‘œ μœ μ§€λ¨μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM ν•™μŠ΅ λ°μ΄ν„°μ…‹μ˜ 무결성을 μœ„ν˜‘ν•˜λŠ” μƒˆλ‘­κ³  νƒμ§€ν•˜κΈ° μ–΄λ €μš΄ 곡격 벑터λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
기쑴의 평가 λ°©μ‹μœΌλ‘œλŠ” νŒŒμ•…ν•˜κΈ° μ–΄λ €μš΄ λͺ¨λΈμ˜ 잠재적 취약점을 νƒμ§€ν•˜κ³  뢄석할 수 μžˆλŠ” μƒˆλ‘œμš΄ κΈ°ν•˜ν•™μ  진단 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
개발된 곡격 및 탐지 방법둠이 ν–₯ν›„ LLM λ³΄μ•ˆ 및 μ‹ λ’°μ„± 확보에 μ€‘μš”ν•œ κΈ°μ—¬λ₯Ό ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
곡격의 잠재적 μœ„ν˜‘μ„ μ‹€μ œ λͺ¨λΈμ—μ„œ μž…μ¦ν•˜μ˜€μœΌλ‚˜, 더 λ‹€μ–‘ν•œ λͺ¨λΈ μ•„ν‚€ν…μ²˜μ™€ 규λͺ¨μ— λŒ€ν•œ κ΄‘λ²”μœ„ν•œ 검증 및 μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ 곡격 μ‹œλ‚˜λ¦¬μ˜€μ— λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘