When Agents Persuade: Propaganda Generation and Mitigation in LLMs

Created by

Haebom

저자

Julia Jose, Ritik Roongta, Rachel Greenstadt

💡 개요

본 연구는 대규모 언어 모델(LLM)이 조작적인 선전물 생성에 악용될 수 있다는 문제를 제기하며, LLM에게 선전 목표를 부여하고 이를 분석합니다. 분석 결과, LLM은 프롬프트에 따라 선전적 행동을 보이며 다양한 수사 기법을 사용함을 확인했습니다. 또한, 지도 학습 미세 조정(SFT), 직접 선호도 최적화(DPO), ORPO(Odds Ratio Preference Optimization)를 통해 이러한 경향을 완화하는 방법을 탐색했으며, ORPO가 가장 효과적인 것으로 나타났습니다.

🔑 시사점 및 한계

•

LLM은 의도적으로 프롬프트될 경우 선전물을 생성할 수 있는 능력이 있으며, 이는 공개 환경에서 배포될 때 악용될 소지가 있음을 시사합니다.

•

Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), ORPO와 같은 선호도 기반 미세 조정 방법은 LLM의 선전물 생성 경향을 효과적으로 감소시킬 수 있습니다.

•

본 연구는 LLM의 선전물 생성 및 완화에 대한 가능성을 보여주지만, 실제 적용 시 발생할 수 있는 복잡한 윤리적, 사회적 문제와 더 넓은 범위의 수사 기법에 대한 연구가 추가적으로 필요합니다.

PDF 보기

Made with Slashpage