Sign In

ProMoral-Bench: Evaluating Prompting Strategies for Moral Reasoning and Safety in LLMs

Created by
  • Haebom
Category
Empty

μ €μž

Rohan Subramanian Thomas, Shikhar Shiromani, Abdullah Chaudhry, Ruizhe Li, Vasu Sharma, Kevin Zhu, Sunishchal Dev

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 도덕적 μΆ”λ‘  및 μ•ˆμ „μ„± ν–₯상을 μœ„ν•œ λ‹€μ–‘ν•œ ν”„λ‘¬ν”„νŒ… μ „λž΅μ„ μ²΄κ³„μ μœΌλ‘œ 비ꡐ ν‰κ°€ν•˜λŠ” ProMoral-BenchλΌλŠ” μƒˆλ‘œμš΄ 벀치마크λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 4κ°€μ§€ LLM νŒ¨λ°€λ¦¬λ₯Ό λŒ€μƒμœΌλ‘œ 11κ°€μ§€ ν”„λ‘¬ν”„νŒ… νŒ¨λŸ¬λ‹€μž„μ„ ETHICS, Scruples, WildJailbreak 및 ETHICS-Contrast 데이터셋을 μ‚¬μš©ν•˜μ—¬ ν‰κ°€ν•œ κ²°κ³Ό, κ°„κ²°ν•˜κ³  μ˜ˆμ‹œ 기반의 ν”„λ‘¬ν”„νŠΈκ°€ λ³΅μž‘ν•œ 닀단계 좔둠보닀 더 높은 톡합 도덕 μ•ˆμ „μ„± 점수(UMSS)와 더 λ‚˜μ€ 견고성을 μ œκ³΅ν•¨μ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κ°„κ²°ν•˜κ³  μ˜ˆμ‹œ 쀑심적인 ν”„λ‘¬ν”„νŠΈ 섀계가 LLM의 도덕적 μ•ˆμ „μ„± 및 견고성 ν–₯상에 효과적이며, 토큰 λΉ„μš©λ„ μ ˆκ°ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
닀쀑 ν„΄ μΆ”λ‘  방식은 μž…λ ₯κ°’ 변화에 μ·¨μ•½ν•œ 반면, μ†Œμˆ˜ μ˜ˆμ‹œ(few-shot) 방식은 도덕적 μ•ˆμ •μ„±κ³Ό νƒˆμ˜₯(jailbreak) 저항성을 κΎΈμ€€νžˆ ν–₯μƒμ‹œν‚€λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.
β€’
ProMoral-BenchλŠ” ν–₯ν›„ LLM ν”„λ‘¬ν”„νŠΈ μ—”μ§€λ‹ˆμ–΄λ§ λΆ„μ•Όμ—μ„œ 원칙적이고 λΉ„μš© 효율적인 연ꡬ 및 κ°œλ°œμ„ μœ„ν•œ ν‘œμ€€ν™”λœ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
πŸ‘