본 논문은 RLHF(Reinforcement Learning from Human Feedback) 플랫폼의 보안 및 신뢰성 문제를 다룹니다. 공개적으로 이용 가능한 RLHF 도구를 대상으로 한 공격을 제시하며, 공격자가 선호도 데이터셋의 데이터 샘플을 선택적으로 조작하여 LLM(Large Language Model) 정렬 프로세스를 손상시키는 방법을 보여줍니다. 공격자의 목표와 사용자의 작업이 일치할 경우, 플랫폼은 공격 대상과 관련된 샘플이 포함된 선호도 데이터셋의 하위 집합을 조작하여 손상된 보상 모델을 생성하고, 궁극적으로 언어 모델의 오정렬을 유발합니다. 실험 결과는 이러한 공격이 특정 영역에서 LLM을 바람직하지 않은 행동으로 효과적으로 유도할 수 있음을 보여줍니다. 따라서 RLHF 플랫폼의 취약성과 RLHF 미세 조정 과정에서 LLM의 오정렬을 야기할 가능성을 조사해야 할 필요성을 강조합니다.