Sign In

Incivility and Rigidity: Evaluating the Risks of Fine-Tuning LLMs for Political Argumentation

Created by
  • Haebom
Category
Empty

저자

Svetlana Churina, Kokil Jaidka

개요

본 논문은 Twitter (X) 및 Reddit과 같은 플랫폼에서의 무례함이 생산적이고 수사학적으로 건전한 정치적 논쟁을 지원하는 AI 시스템 개발을 복잡하게 만든다는 점에 주목한다. GPT-3.5 Turbo 모델을 고(Twitter) 및 저(r/ChangeMyView) 무례함 데이터셋으로 미세 조정하여 실험을 수행하고, 데이터 구성과 프롬프트 전략이 모델 생성 논쟁의 수사적 프레이밍 및 심의적 품질에 미치는 영향을 평가한다. Reddit 미세 조정 모델은 더 안전하지만 수사적으로 엄격한 논쟁을 생성하는 반면, 교차 플랫폼 미세 조정은 적대적 어조와 유해성을 증폭시킨다. 프롬프트 기반 조작은 명백한 유해성을 줄일 수 있지만, 잡음이 많은 학습 데이터의 영향을 완전히 상쇄하지는 못한다. 저자는 정당성, 상호성, 정렬, 권위를 포함하는 수사적 평가 루브릭을 제시하고, 저작, 중재 및 심의 지원 시스템 구현 지침을 제공한다.

시사점, 한계점

Reddit 데이터로 미세 조정된 모델은 더 안전한 답변을 생성하지만, 수사학적 유연성은 떨어진다.
교차 플랫폼 미세 조정은 적대적인 어조와 유해성을 증가시킨다.
프롬프트 기반 조작은 유해성을 감소시키지만, 학습 데이터의 영향을 완전히 제거하지는 못한다.
수사적 평가 루브릭을 통해 논쟁의 질을 평가할 수 있는 기준을 제공한다.
Twitter 데이터의 무례함이 모델의 결과에 부정적인 영향을 미친다.
👍