Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models

Created by
  • Haebom
Category
Empty

저자

Jiaming Ji, Xinyu Chen, Rui Pan, Han Zhu, Conghui Zhang, Jiahao Li, Donghai Hong, Boyuan Chen, Jiayi Zhou, Kaile Wang, Juntao Dai, Chi-Min Chan, Sirui Han, Yike Guo, Yaodong Yang

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 안전한 정렬을 위한 새로운 프레임워크인 Safe RLHF-V를 제안한다. Safe RLHF-V는 라그랑주 기반 제약 최적화 프레임워크 내에서 별도의 다중 모달 보상 및 비용 모델을 사용하여 유용성과 안전성을 공동으로 최적화한다. MLLM의 안전성 향상을 위해 유용성과 안전성에 대한 이중 선호도 주석과 다단계 안전 레이블(경미, 중간, 심각)이 포함된 최초의 오픈소스 데이터셋 BeaverTails-V를 소개하고, 안전하지 않은 질의와 적대적 공격으로부터 사전에 방어하기 위한 다단계 안전장치 시스템을 설계했다. Beaver-Guard-V 조정을 통해 기존 모델의 안전성을 평균 40.9% 향상시켰으며, Safe RLHF-V를 사용하여 다양한 MLLM을 미세 조정한 결과, 모델의 안전성을 34.2%, 유용성을 34.3% 향상시켰음을 실험적으로 입증했다. 모든 데이터셋, 모델 및 코드는 GitHub에서 공개적으로 제공된다.

시사점, 한계점

시사점:
다중 모달 대규모 언어 모델의 안전성과 유용성을 동시에 향상시키는 새로운 프레임워크 Safe RLHF-V 제시.
유용성과 안전성에 대한 이중 선호도 주석을 포함한 새로운 오픈소스 데이터셋 BeaverTails-V 공개.
다단계 안전장치 시스템을 통한 안전하지 않은 질의 및 적대적 공격에 대한 효과적인 방어.
실험 결과를 통해 Safe RLHF-V의 안전성 및 유용성 향상 효과 검증.
MLLM의 안전한 개발과 잠재적인 사회적 위험 감소에 기여.
한계점:
BeaverTails-V 데이터셋의 규모 및 다양성에 대한 추가적인 연구 필요.
다단계 안전장치 시스템의 한계 및 개선 가능성에 대한 추가적인 분석 필요.
다양한 MLLM에 대한 일반화 성능에 대한 추가적인 검증 필요.
실제 환경에서의 안전성 및 유용성 평가 필요.
👍