Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Evaluating Proactive Risk Awareness of Multimodal Language Models

Created by
  • Haebom

저자

Youliang Yuan, Wenxiang Jiao, Yuejin Xie, Chihao Shen, Menghan Tian, Wenxuan Wang, Jen-tse Huang, Pinjia He

개요

본 논문은 인간의 안전 인식의 부족으로 인해 일상적인 위험을 제때 인지하지 못하는 문제를 해결하기 위해 사전 예방적 안전 인공지능(AI) 시스템의 필요성을 강조합니다. 반응형 AI 시스템 대신, 사용자의 질문에 반응하는 대신 사용자의 행동과 환경을 적극적으로 관찰하여 잠재적인 위험을 미리 감지하는 시스템을 제안합니다. 이를 위해 5개의 안전 중요 영역에 걸쳐 416개의 다중 모달 시나리오(이미지 시퀀스 128개, 텍스트 로그 288개)로 구성된 사전 예방적 안전 벤치마크(PaSBench)를 개발하고, 36개의 고급 모델을 평가했습니다. 평가 결과, Gemini-2.5-pro와 같은 최고 성능 모델도 이미지 정확도 71%, 텍스트 정확도 64%를 달성했지만 반복 시험에서 45-55%의 위험을 놓치는 등 불안정한 사전 예방적 추론 능력이 주요 한계점으로 드러났습니다. 본 연구는 사전 예방적 안전 벤치마크, 모델의 한계에 대한 체계적인 증거, 그리고 안정적인 보호 AI 개발을 위한 중요한 방향을 제시하며, PaSBench 데이터셋(https://huggingface.co/datasets/Youliang/PaSBench)을 공개하여 안전한 AI 어시스턴트 개발을 촉진하고자 합니다.

시사점, 한계점

시사점:
사전 예방적 안전 AI 시스템 개발을 위한 새로운 벤치마크(PaSBench) 제시
최첨단 모델의 한계점을 체계적으로 밝힘으로써 향후 연구 방향 제시
안전한 AI 어시스턴트 개발을 위한 데이터셋 공개
반응형 AI 시스템의 한계를 극복하고 사전 예방적 AI 시스템의 중요성 강조
한계점:
최고 성능 모델조차도 상당수의 위험을 놓치는 높은 오류율 발생 (45-55%)
모델의 지식 부족보다는 불안정한 사전 예방적 추론 능력이 주요 한계로 지적됨
PaSBench 데이터셋의 범위와 다양성에 대한 추가적인 검토 필요
👍