본 논문은 다중 모달 대규모 언어 모델(MLLM)의 안전성 평가 벤치마크의 부족함을 지적하고, 이를 해결하기 위해 통합 안전 벤치마크(USB)를 제시합니다. 기존 벤치마크는 데이터 품질과 범위, 모달 위험 조합 측면에서 미흡하여 과장되고 모순적인 평가 결과를 초래하며, 안전 문제 발견 및 관리를 저해한다는 점을 문제점으로 제기합니다. USB는 고품질 질의, 광범위한 위험 범주, 포괄적인 모달 조합을 특징으로 하며, 취약성과 과민성 평가를 모두 포함합니다. 기존 벤치마크들의 부족한 점을 보완하기 위해 정교한 데이터 합성 파이프라인을 설계하여 이전에 탐구되지 않은 측면을 다루는 방대한 고품질 보완 데이터를 생성합니다. 오픈소스 데이터셋과 합성 데이터를 결합하여 61개의 위험 하위 범주 각각에 대해 4가지의 구별되는 모달 조합을 제공하며, 영어와 중국어를 모두 포함하고 취약성 및 과민성 차원 모두를 다룹니다.
시사점, 한계점
•
시사점:
◦
MLLM 안전성 평가를 위한 종합적이고 고품질의 벤치마크인 USB를 제공합니다.
◦
기존 벤치마크의 한계점을 명확히 제시하고, 이를 극복하기 위한 해결책을 제시합니다.
◦
다양한 모달 조합과 위험 범주를 포함하여 MLLM의 안전성 평가를 더욱 포괄적으로 수행할 수 있습니다.
◦
취약성과 과민성을 동시에 고려하여 더욱 정확한 평가가 가능합니다.
◦
영어와 중국어를 모두 지원하여 다국어 지원을 강화합니다.
•
한계점:
◦
합성 데이터의 품질 및 일반화 가능성에 대한 추가 검증이 필요할 수 있습니다.
◦
새로운 위험 유형이나 모달 조합이 등장할 경우 벤치마크 업데이트가 필요합니다.
◦
USB의 범위가 광범위하지만, 모든 가능한 위험 시나리오를 완벽하게 포괄한다고 단정할 수는 없습니다.