Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models
Created by
Haebom
Category
Empty
저자
Jiaming Ji, Xinyu Chen, Rui Pan, Han Zhu, Conghui Zhang, Jiahao Li, Donghai Hong, Boyuan Chen, Jiayi Zhou, Kaile Wang, Juntao Dai, Chi-Min Chan, Sirui Han, Yike Guo, Yaodong Yang
개요
본 논문은 다중 모달 대규모 언어 모델(MLLM)의 안전한 정렬을 위한 새로운 프레임워크인 Safe RLHF-V를 제안한다. Safe RLHF-V는 라그랑주 기반 제약 최적화 프레임워크 내에서 별도의 다중 모달 보상 및 비용 모델을 사용하여 유용성과 안전성을 공동으로 최적화한다. MLLM의 안전성 향상을 위해 유용성과 안전성에 대한 이중 선호도 주석과 다단계 안전 레이블(경미, 중간, 심각)이 포함된 최초의 오픈소스 데이터셋 BeaverTails-V를 소개하고, 안전하지 않은 질의와 적대적 공격으로부터 사전에 방어하기 위한 다단계 안전장치 시스템을 설계했다. Beaver-Guard-V 조정을 통해 기존 모델의 안전성을 평균 40.9% 향상시켰으며, Safe RLHF-V를 사용하여 다양한 MLLM을 미세 조정한 결과, 모델의 안전성을 34.2%, 유용성을 34.3% 향상시켰음을 실험적으로 입증했다. 모든 데이터셋, 모델 및 코드는 GitHub에서 공개적으로 제공된다.
시사점, 한계점
•
시사점:
◦
다중 모달 대규모 언어 모델의 안전성과 유용성을 동시에 향상시키는 새로운 프레임워크 Safe RLHF-V 제시.
◦
유용성과 안전성에 대한 이중 선호도 주석을 포함한 새로운 오픈소스 데이터셋 BeaverTails-V 공개.