Sign In

Among Them: A game-based framework for assessing persuasion capabilities of LLMs

Created by
  • Haebom
Category
Empty

저자

Mateusz Idziejczak, Vasyl Korzavatykh, Mateusz Stawicki, Andrii Chmutov, Marcin Korcz, Iwo B{\l}\k{a}dek, Dariusz Brzezinski

개요

본 논문은 대규모 언어 모델(LLM)과 자율적 AI 에이전트의 자동 설득 및 사회적 영향력에 대한 우려를 다룹니다. 기존 연구는 LLM 기반 조작의 개별적인 사례를 탐구했지만, 다양한 모델에 걸친 설득 능력에 대한 체계적인 평가는 제한적이었습니다. 이 논문에서는 Among Us에서 영감을 받은 게임 프레임워크를 제시하여 통제된 환경에서 LLM의 속임수 기술을 평가합니다. 제안된 프레임워크는 게임 통계를 통해 LLM 모델을 비교하고 사회심리학과 수사학의 25가지 설득 전략에 따라 게임 내 조작을 정량화할 수 있도록 합니다. 다양한 유형과 크기의 8가지 인기 있는 언어 모델 간의 실험을 통해 모든 테스트된 모델이 설득력을 보여주고 25가지 예상 기법 중 22가지를 성공적으로 사용함을 보여줍니다. 또한 더 큰 모델이 더 작은 모델보다 설득력 측면에서 이점을 제공하지 않으며 더 긴 모델 출력은 승리한 게임 수와 음의 상관관계가 있음을 발견했습니다. 본 연구는 LLM의 속임수 능력에 대한 통찰력과 향후 연구를 촉진하기 위한 도구 및 데이터를 제공합니다.

시사점, 한계점

시사점:
Among Us 기반 게임 프레임워크를 통해 LLM의 설득 능력을 체계적으로 평가할 수 있는 새로운 방법을 제시.
다양한 크기의 LLM 모델이 모두 설득 능력을 가지고 있으며, 특히 25가지 설득 전략 중 22가지를 성공적으로 활용함을 실험적으로 증명.
모델 크기가 설득 능력에 직접적인 영향을 미치지 않으며, 오히려 긴 출력은 승리 확률을 낮추는 것을 발견.
LLM의 속임수 및 조작 능력에 대한 이해를 심화시키고, 향후 연구를 위한 데이터 및 도구 제공.
한계점:
Among Us 게임 환경이 실제 세계의 복잡한 사회적 상호작용을 완벽하게 반영하지 못할 수 있음.
사용된 설득 전략의 종류와 수가 제한적일 수 있으며, 다른 전략을 포함할 필요가 있음.
실험에 사용된 LLM 모델의 종류와 수가 제한적이어서 일반화에 어려움이 있을 수 있음.
게임 환경 내에서의 설득 능력 평가가 실제 세계의 설득 효과와 직접적으로 연결되지 않을 수 있음.
👍