Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth

Created by
  • Haebom
Category
Empty

저자

Wenpeng Xing, Lanyi Wei, Haixiao Hu, Rongchang Li, Mohan Li, Changting Lin, Meng Han

개요

본 논문은 아동 및 청소년 대상 대규모 언어 모델(LLM)의 안전성 문제를 다루며, 기존 AI 안전성 프레임워크가 아동의 발달적 취약성을 고려하지 못하는 점을 지적합니다. 이를 위해, 연령별(0-6세, 7-12세, 13-18세) 인지적, 정서적, 사회적 위험을 평가하는 SproutBench를 개발했습니다. SproutBench는 1,283개의 악의적인 프롬프트를 포함하며, 47개의 LLM을 대상으로 감정적 의존성, 개인 정보 침해, 유해한 행동 모방 등 안전성 취약점을 평가합니다. 평가 결과, 안전성과 위험 방지 간의 강한 상관관계와 상호 작용과 연령 적합성 간의 역 상관관계가 나타났으며, 이를 바탕으로 아동 중심 AI 설계 및 배포를 위한 지침을 제시합니다.

시사점, 한계점

시사점:
아동 대상 LLM의 안전성 평가를 위한 새로운 벤치마크 (SproutBench) 개발 및 공개
다양한 LLM의 취약점 분석 및 연령별 위험 요소 파악
아동 중심 AI 설계 및 배포를 위한 실용적인 지침 제시
한계점:
제한된 수의 LLM 평가 (47개)
평가에 사용된 악의적인 프롬프트의 범위와 종류에 대한 추가적인 연구 필요
실제 사용 환경에서의 안전성 검증 부족
👍