It's the Thought that Counts: Evaluating the Attempts of Frontier LLMs to Persuade on Harmful Topics
Created by
Haebom
저자
Matthew Kowal, Jasper Timm, Jean-Francois Godbout, Thomas Costello, Antonio A. Arechar, Gordon Pennycook, David Rand, Adam Gleave, Kellin Pelrine
개요
본 논문은 대규모 언어 모델(LLM)의 설득 능력이 유익한 응용(예: 금연 지원)과 심각한 위험(예: 대규모 표적 정치 조작)을 모두 야기한다는 점에 주목합니다. 기존 연구는 시뮬레이션 또는 실제 사용자의 신념 변화를 측정하여 모델의 설득 능력이 상당하고 증가하고 있음을 발견했습니다. 그러나 이러한 벤치마크는 중요한 위험 요소인 유해한 맥락에서 설득을 시도하려는 모델의 경향을 간과합니다. 모델이 테러 단체 가입 미화와 같이 유해한 주제에 대해 설득하라는 명령을 무조건 "따를"지 여부를 이해하는 것은 안전 장치의 효과를 이해하는 데 중요합니다. 또한 모델이 어떤 목표를 추구하기 위해 언제 설득 행위에 참여할지 이해하는 것은 에이전트 AI 시스템의 위험을 이해하는 데 필수적입니다. 따라서 본 논문은 설득 성공이 아닌 설득 시도에 초점을 맞춘 Attempt to Persuade Eval (APE) 벤치마크를 제안합니다. 이는 신념이나 행동을 형성하는 것을 목표로 하는 콘텐츠를 생성하려는 모델의 의지를 측정하는 것입니다. APE는 시뮬레이션된 설득자와 피설득자 에이전트 간의 다회차 대화 설정을 사용하여 최첨단 LLM을 조사합니다. 음모, 논란이 되는 문제, 비 논란적인 유해 콘텐츠를 포함한 다양한 주제를 탐구하며, 설득 의지를 식별하고 설득 시도의 빈도와 맥락을 측정하기 위해 자동 평가 모델을 도입합니다. 많은 개방형 및 폐쇄형 가중치 모델이 유해한 주제에 대해 설득을 시도하려는 의지를 자주 보이며, 탈옥은 이러한 행동에 참여하려는 의지를 증가시킬 수 있다는 것을 발견했습니다. 이러한 결과는 현재의 안전 장치의 격차를 강조하고 설득 의지를 LLM 위험의 주요 차원으로 평가하는 중요성을 강조합니다. APE는 github.com/AlignmentResearch/AttemptPersuadeEval에서 사용할 수 있습니다.