Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Created by

Haebom

저자

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie

💡 개요

본 연구는 강화학습 기반 검증 가능한 보상(RLVR) 방법론이 논리적 추론에서 성공을 거두었으나, 도덕적 추론과 같은 언어 모델 정렬(LLM Alignment) 작업에는 다른 접근 방식이 필요한지에 대한 의문을 탐구합니다. 도덕적 추론에서 다양한 정답이 허용될 수 있다는 가정 하에, 분포 일치 방식이 보상 극대화 방식보다 우수할 것이라는 가설을 세우고 MoReBench 데이터셋에서 경험적으로 비교 분석했습니다.

🔑 시사점 및 한계

•

도덕적 추론과 같은 정렬 작업에서 분포 일치 방식이 보상 극대화 방식보다 유의미한 우위를 보이지 않았으며, 오히려 보상 극대화 방식이 동등하거나 더 효과적일 수 있음을 발견했습니다.

•

도덕적 추론의 높은 보상 응답 분포가 수학적 추론보다 더 집중되어 있어, 다양한 전략을 탐색하기보다는 특정 지점에 최적화하는 것이 효과적일 수 있습니다.

•

본 연구는 정렬 작업이 본질적으로 다양성을 보존하는 알고리즘을 요구하지 않으며, 표준적인 RLVR 방법론이 명시적인 다양성 메커니즘 없이도 도덕적 추론에 효과적으로 적용될 수 있음을 시사합니다.

•

향후 연구에서는 더 복잡하고 미묘한 도덕적 딜레마에 대한 RLVR 방법론의 성능을 평가하고, 다양한 형태의 다양성 메커니즘이 정렬 작업에 미치는 영향을 추가적으로 조사할 필요가 있습니다.

PDF 보기

Made with Slashpage