Detecting Jailbreak Attempts in Clinical Training LLMs Through Automated Linguistic Feature Extraction

Created by

Haebom

저자

Tri Nguyen, Huy Hoang Bao Le, Lohith Srikanth Pentapalli, Laurah Turner, Kelly Cohen

💡 개요

본 연구는 임상 훈련 대규모 언어 모델(LLM)에서 안전하지 않거나 작업에서 벗어난 사용자 행동을 나타내는 언어적 편차를 자동화된 방식으로 탐지하는 것을 목표로 합니다. 전문가 주석을 기반으로 4가지 핵심 언어 특징(전문성, 의학적 관련성, 윤리적 행동, 맥락적 산만함)을 추출하기 위해 BERT 기반 LLM 모델을 학습시키고, 이를 통해 탐지 정확도를 높였습니다. 추출된 특징을 활용한 예측 모델은 높은 성능을 보여 자동화된 탐지가 효과적임을 입증했습니다.

🔑 시사점 및 한계

•

LLM을 활용한 언어 특징 자동 추출은 임상 훈련 LLM의 안전성을 높이는 확장 가능하고 해석 가능한 접근 방식을 제공합니다.

•

과거 수동 주석 방식의 한계를 극복하고, 더욱 정교하고 다양한 언어적 편차를 포착하는 데 기여합니다.

•

현재 주석 체계와 특징 표현 방식의 한계가 존재하며, 향후 더 풍부한 주석, 세밀한 특징 추출, 대화 맥락을 반영하는 방법론 개발이 필요합니다.

PDF 보기

Made with Slashpage