The Collective Turing Test: Large Language Models Can Generate Realistic Multi-User Discussions
Created by
Haebom
Category
Empty
저자
Azza Bouleimen, Giordano De Marzo, Taehee Kim, Nicol`o Pagan, Hannah Metzler, Silvia Giordano, David Garcia
개요
본 논문은 대규모 언어 모델(LLM)이 온라인 커뮤니티 및 소셜 미디어를 시뮬레이션할 수 있는 가능성을 탐구한다. 특히, LLM이 실제 인간의 소셜 미디어 대화를 얼마나 설득력 있게 모방할 수 있는지 평가했다. Reddit에서 수집한 실제 대화와 Llama 3 70B 및 GPT-4o를 사용하여 생성된 인공 대화를 비교 분석한 결과, 연구 참여자는 LLM이 생성한 대화를 인간이 생성한 것으로 39%의 확률로 오인했다. Llama 3가 생성한 대화의 경우, 참여자가 AI 생성물임을 정확히 식별한 비율이 56%로, 무작위 확률과 거의 유사했다.
시사점, 한계점
•
시사점:
◦
LLM은 인간을 속일 정도로 현실적인 소셜 미디어 대화를 생성할 수 있는 잠재력을 보여준다.
◦
소셜 시뮬레이션 분야에 유망한 가능성을 제시한다.
◦
콘텐츠 추천 알고리즘 설계, 정책 효과 추정 등 다양한 분야에 활용될 수 있다.
•
한계점:
◦
LLM이 가짜 소셜 미디어 콘텐츠를 생성하여 악용될 가능성이 있다.
◦
연구는 특정 LLM(Llama 3, GPT-4o)과 Reddit 데이터에 국한되어 일반화에 한계가 있다.
◦
참여자 대상 연구 결과이므로, 실제 소셜 미디어 환경에서의 LLM 대화 모방 능력과는 차이가 있을 수 있다.