Sign In

Detecting Jailbreak Attempts in Clinical Training LLMs Through Automated Linguistic Feature Extraction

Created by
  • Haebom
Category
Empty

μ €μž

Tri Nguyen, Huy Hoang Bao Le, Lohith Srikanth Pentapalli, Laurah Turner, Kelly Cohen

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μž„μƒ ν›ˆλ ¨ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)μ—μ„œ μ•ˆμ „ν•˜μ§€ μ•Šκ±°λ‚˜ μž‘μ—…μ—μ„œ λ²—μ–΄λ‚œ μ‚¬μš©μž 행동을 λ‚˜νƒ€λ‚΄λŠ” 언어적 편차λ₯Ό μžλ™ν™”λœ λ°©μ‹μœΌλ‘œ νƒμ§€ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€. μ „λ¬Έκ°€ 주석을 기반으둜 4κ°€μ§€ 핡심 μ–Έμ–΄ νŠΉμ§•(μ „λ¬Έμ„±, μ˜ν•™μ  κ΄€λ ¨μ„±, 윀리적 행동, λ§₯락적 μ‚°λ§Œν•¨)을 μΆ”μΆœν•˜κΈ° μœ„ν•΄ BERT 기반 LLM λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚€κ³ , 이λ₯Ό 톡해 탐지 정확도λ₯Ό λ†’μ˜€μŠ΅λ‹ˆλ‹€. μΆ”μΆœλœ νŠΉμ§•μ„ ν™œμš©ν•œ 예츑 λͺ¨λΈμ€ 높은 μ„±λŠ₯을 보여 μžλ™ν™”λœ 탐지가 νš¨κ³Όμ μž„μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM을 ν™œμš©ν•œ μ–Έμ–΄ νŠΉμ§• μžλ™ μΆ”μΆœμ€ μž„μƒ ν›ˆλ ¨ LLM의 μ•ˆμ „μ„±μ„ λ†’μ΄λŠ” ν™•μž₯ κ°€λŠ₯ν•˜κ³  해석 κ°€λŠ₯ν•œ μ ‘κ·Ό 방식을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
κ³Όκ±° μˆ˜λ™ 주석 λ°©μ‹μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³ , λ”μš± μ •κ΅ν•˜κ³  λ‹€μ–‘ν•œ 언어적 편차λ₯Ό ν¬μ°©ν•˜λŠ” 데 κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬ 주석 체계와 νŠΉμ§• ν‘œν˜„ λ°©μ‹μ˜ ν•œκ³„κ°€ μ‘΄μž¬ν•˜λ©°, ν–₯ν›„ 더 ν’λΆ€ν•œ 주석, μ„Έλ°€ν•œ νŠΉμ§• μΆ”μΆœ, λŒ€ν™” λ§₯락을 λ°˜μ˜ν•˜λŠ” 방법둠 개발이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘