Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DeepKnown-Guard: A Proprietary Model-Based Safety Response Framework for AI Agents

Created by
  • Haebom
Category
Empty

저자

Qi Li, Jianjun Xu, Pingtao Wei, Jiu Li, Peiqiang Zhao, Jiwei Shi, Xuan Zhang, Yanhui Yang, Xiaodong Hui, Peng Xu, Wenqin Shao

LLM 안전 응답 프레임워크

개요

본 논문은 대규모 언어 모델(LLM)의 안전성 문제를 해결하기 위해 입력 및 출력 수준에서 LLM을 보호하는 새로운 안전 응답 프레임워크를 제안한다. 입력 단계에서는 감독 하에 미세 조정된 안전 분류 모델을 사용하여 사용자 쿼리에 대한 정밀한 위험 식별 및 차등 처리를 수행한다. 4단계 분류 체계(안전, 안전하지 않음, 조건부 안전, 집중 주의)를 통해 위험 범위를 넓히고 비즈니스 시나리오에 대한 적응성을 높여 위험 회수율 99.3%를 달성한다. 출력 단계에서는 검색 증강 생성(RAG)을 특별히 미세 조정된 해석 모델과 통합하여 모든 응답이 실시간으로 신뢰할 수 있는 지식 기반에 기반하도록 보장한다. 이는 정보 조작을 방지하고 결과 추적을 가능하게 한다. 실험 결과는 제안된 안전 제어 모델이 기본 모델 TinyR1-Safety-8B보다 공개 안전성 평가 벤치마크에서 훨씬 높은 안전성 점수를 달성함을 보여준다. 또한 자체 고위험 테스트 세트에서 프레임워크의 구성 요소가 완벽한 100% 안전성 점수를 달성하여 복잡한 위험 시나리오에서 탁월한 보호 기능을 입증했다.

시사점, 한계점

시사점:
입력 및 출력 수준에서 LLM의 안전성을 포괄적으로 다룸.
미세 조정된 안전 분류 모델을 활용하여 정밀한 위험 식별 및 차등 처리를 수행.
RAG와 해석 모델을 통합하여 정보 조작 방지 및 결과 추적 가능.
공개 및 자체 테스트 세트에서 높은 안전성 점수를 달성하여 효과 입증.
고신뢰 LLM 애플리케이션 구축을 위한 효과적인 엔지니어링 경로 제공.
한계점:
논문에서 구체적인 한계점이 명시적으로 언급되지 않음.
사용된 특정 모델 및 데이터 세트에 의존적인 결과일 수 있음.
실제 배포 환경에서의 성능 및 확장성에 대한 추가 연구 필요.
👍