haebom
Sign In
ProMoral-Bench: Evaluating Prompting Strategies for Moral Reasoning and Safety in LLMs
Created by
Haebom
Category
Empty
μ μ
Rohan Subramanian Thomas, Shikhar Shiromani, Abdullah Chaudhry, Ruizhe Li, Vasu Sharma, Kevin Zhu, Sunishchal Dev
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ λλμ μΆλ‘ λ° μμ μ± ν₯μμ μν λ€μν ν둬νν μ λ΅μ 체κ³μ μΌλ‘ λΉκ΅ νκ°νλ ProMoral-BenchλΌλ μλ‘μ΄ λ²€μΉλ§ν¬λ₯Ό μ μν©λλ€. 4κ°μ§ LLM ν¨λ°λ¦¬λ₯Ό λμμΌλ‘ 11κ°μ§ ν둬νν ν¨λ¬λ€μμ ETHICS, Scruples, WildJailbreak λ° ETHICS-Contrast λ°μ΄ν°μ μ μ¬μ©νμ¬ νκ°ν κ²°κ³Ό, κ°κ²°νκ³ μμ κΈ°λ°μ ν둬ννΈκ° 볡μ‘ν λ€λ¨κ³ μΆλ‘ λ³΄λ€ λ λμ ν΅ν© λλ μμ μ± μ μ(UMSS)μ λ λμ κ²¬κ³ μ±μ μ 곡ν¨μ λ°κ²¬νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
κ°κ²°νκ³ μμ μ€μ¬μ μΈ ν둬ννΈ μ€κ³κ° LLMμ λλμ μμ μ± λ° κ²¬κ³ μ± ν₯μμ ν¨κ³Όμ μ΄λ©°, ν ν° λΉμ©λ μ κ°ν μ μμ΅λλ€.
β’
λ€μ€ ν΄ μΆλ‘ λ°©μμ μ λ ₯κ° λ³νμ μ·¨μ½ν λ°λ©΄, μμ μμ(few-shot) λ°©μμ λλμ μμ μ±κ³Ό νμ₯(jailbreak) μ νμ±μ κΎΈμ€ν ν₯μμν€λ κ²μΌλ‘ λνλ¬μ΅λλ€.
β’
ProMoral-Benchλ ν₯ν LLM ν둬ννΈ μμ§λμ΄λ§ λΆμΌμμ μμΉμ μ΄κ³ λΉμ© ν¨μ¨μ μΈ μ°κ΅¬ λ° κ°λ°μ μν νμ€νλ νλ μμν¬λ₯Ό μ 곡ν©λλ€.
PDF 보기
Made with Slashpage