ProMoral-Bench: Evaluating Prompting Strategies for Moral Reasoning and Safety in LLMs

Created by

Haebom

저자

Rohan Subramanian Thomas, Shikhar Shiromani, Abdullah Chaudhry, Ruizhe Li, Vasu Sharma, Kevin Zhu, Sunishchal Dev

💡 개요

본 논문은 대규모 언어 모델(LLM)의 도덕적 추론 및 안전성 향상을 위한 다양한 프롬프팅 전략을 체계적으로 비교 평가하는 ProMoral-Bench라는 새로운 벤치마크를 제안합니다. 4가지 LLM 패밀리를 대상으로 11가지 프롬프팅 패러다임을 ETHICS, Scruples, WildJailbreak 및 ETHICS-Contrast 데이터셋을 사용하여 평가한 결과, 간결하고 예시 기반의 프롬프트가 복잡한 다단계 추론보다 더 높은 통합 도덕 안전성 점수(UMSS)와 더 나은 견고성을 제공함을 발견했습니다.

🔑 시사점 및 한계

•

간결하고 예시 중심적인 프롬프트 설계가 LLM의 도덕적 안전성 및 견고성 향상에 효과적이며, 토큰 비용도 절감할 수 있습니다.

•

다중 턴 추론 방식은 입력값 변화에 취약한 반면, 소수 예시(few-shot) 방식은 도덕적 안정성과 탈옥(jailbreak) 저항성을 꾸준히 향상시키는 것으로 나타났습니다.

•

ProMoral-Bench는 향후 LLM 프롬프트 엔지니어링 분야에서 원칙적이고 비용 효율적인 연구 및 개발을 위한 표준화된 프레임워크를 제공합니다.

PDF 보기

Made with Slashpage