Sign In

Safe for Whom? Rethinking How We Evaluate the Safety of LLMs for Real Users

Created by
  • Haebom
Category
Empty

μ €μž

Manon Kempermann, Sai Suresh Macharla Vasu, Mahalakshmi Raveenthiran, Theo Farrell, Ingmar Weber

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 금육 및 건강과 같이 κ°œμΈμ—κ²Œ μ€‘λŒ€ν•œ 영ν–₯을 λ―ΈμΉ˜λŠ” κ³ μœ„ν—˜ μ£Όμ œμ— λŒ€ν•œ LLM의 μ•ˆμ „μ„± 평가가 보편적 μœ„ν—˜μ— μ΄ˆμ μ„ λ§žμΆ”λŠ” κΈ°μ‘΄ λ°©μ‹μ—μ„œ λ²—μ–΄λ‚˜ 개인의 λ§₯락을 κ³ λ €ν•΄μ•Ό 함을 μ£Όμž₯ν•©λ‹ˆλ‹€. 연ꡬ진은 λ‹€μ–‘ν•œ μ·¨μ•½μ„± μˆ˜μ€€μ˜ μ‚¬μš©μž ν”„λ‘œν•„μ— 따라 GPT-5, Claude Sonnet 4, Gemini 2.5 Pro의 금육 및 건강 κ΄€λ ¨ 쑰언을 ν‰κ°€ν–ˆμœΌλ©°, ν‰κ°€μžμ—κ²Œ μ‚¬μš©μž λ§₯락 정보 제곡이 평가 결과에 μƒλ‹Ήν•œ 영ν–₯을 미침을 λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 μ•ˆμ „μ„± ν‰κ°€λŠ” μ‚¬μš©μžλ³„ λ§₯락 정보λ₯Ό κ³ λ €ν•΄μ•Ό ν•˜λ©°, 특히 μ·¨μ•½ κ³„μΈ΅μ˜ 경우 μ΄λŸ¬ν•œ κ³ λ €κ°€ λ”μš± μ€‘μš”ν•©λ‹ˆλ‹€.
β€’
μ‹€μ œ μ‚¬μš©μž λ§₯락을 ν¬ν•¨ν•œ ν”„λ‘¬ν”„νŠΈλ§ŒμœΌλ‘œλŠ” LLM의 μ•ˆμ „μ„± 평가 κ°œμ„ μ— μΆ©λΆ„ν•˜μ§€ μ•ŠμœΌλ©°, ν‰κ°€μžμ—κ²Œ ν’λΆ€ν•œ μ‚¬μš©μž λ§₯락 정보 제곡이 ν•„μˆ˜μ μž…λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” λ§₯락 인지 평가λ₯Ό μœ„ν•œ 방법둠을 μ œμ‹œν•˜μ§€λ§Œ, ν˜„μ‹€μ μΈ μ‚¬μš©μž λ§₯락 κ³΅κ°œλ§ŒμœΌλ‘œλŠ” λͺ¨λ“  μ·¨μ•½ μ‚¬μš©μžμ—κ²Œ μ•ˆμ „μ„±μ„ 보μž₯ν•˜κΈ° μ–΄λ ΅λ‹€λŠ” ν•œκ³„κ°€ μžˆμŠ΅λ‹ˆλ‹€. ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” λ‹€μ–‘ν•œ μ‚¬μš©μž ν”„λ‘œν•„μ— λŒ€ν•œ 평가 섀계 및 μžλ™ν™”λœ λ§₯락 인지 평가 방법 개발이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘