Safe for Whom? Rethinking How We Evaluate the Safety of LLMs for Real Users

Created by

Haebom

저자

Manon Kempermann, Sai Suresh Macharla Vasu, Mahalakshmi Raveenthiran, Theo Farrell, Ingmar Weber

💡 개요

본 연구는 금융 및 건강과 같이 개인에게 중대한 영향을 미치는 고위험 주제에 대한 LLM의 안전성 평가가 보편적 위험에 초점을 맞추는 기존 방식에서 벗어나 개인의 맥락을 고려해야 함을 주장합니다. 연구진은 다양한 취약성 수준의 사용자 프로필에 따라 GPT-5, Claude Sonnet 4, Gemini 2.5 Pro의 금융 및 건강 관련 조언을 평가했으며, 평가자에게 사용자 맥락 정보 제공이 평가 결과에 상당한 영향을 미침을 발견했습니다.

🔑 시사점 및 한계

•

LLM의 안전성 평가는 사용자별 맥락 정보를 고려해야 하며, 특히 취약 계층의 경우 이러한 고려가 더욱 중요합니다.

•

실제 사용자 맥락을 포함한 프롬프트만으로는 LLM의 안전성 평가 개선에 충분하지 않으며, 평가자에게 풍부한 사용자 맥락 정보 제공이 필수적입니다.

•

본 연구는 맥락 인지 평가를 위한 방법론을 제시하지만, 현실적인 사용자 맥락 공개만으로는 모든 취약 사용자에게 안전성을 보장하기 어렵다는 한계가 있습니다. 향후 연구에서는 다양한 사용자 프로필에 대한 평가 설계 및 자동화된 맥락 인지 평가 방법 개발이 필요합니다.

PDF 보기

Made with Slashpage