대규모 언어 모델(LLM)의 안전성 문제를 해결하기 위해, 입력 및 출력 단계에서 체계적인 안전성 확보를 위한 새로운 프레임워크를 제안합니다. 입력 단계에서는 감독 기반 미세 조정 안전성 분류 모델을 사용하여 위험을 정밀하게 식별하고 차별적으로 처리합니다. 출력 단계에서는 검색 증강 생성(RAG)을 미세 조정된 해석 모델과 통합하여 신뢰할 수 있는 지식 기반에 기반한 응답을 보장합니다. 실험 결과, 제안된 안전성 제어 모델은 기존 모델보다 높은 안전성 점수를 달성했으며, 자체 고위험 테스트 세트에서 100% 안전성 점수를 기록했습니다.
시사점, 한계점
•
시사점:
◦
입력 및 출력 단계에서 LLM의 안전성을 체계적으로 확보하는 새로운 프레임워크 제시
◦
정밀한 위험 식별 및 차별적 처리를 위한 4단계 분류 체계 활용
◦
RAG를 활용하여 정보 조작 방지 및 결과 추적 가능
◦
공개 및 자체 테스트 세트에서 높은 안전성 점수 달성
◦
고신뢰 LLM 응용 프로그램 구축을 위한 효과적인 엔지니어링 경로 제공
•
한계점:
◦
논문 자체에서 구체적인 한계점을 명시하지 않음.
◦
특정 벤치마크 및 자체 테스트 세트에 대한 성능에 집중되어 있어, 일반화된 안전성 보장에 대한 추가 연구 필요.