Human Choice Prediction in Language-based Persuasion Games: Simulation-based Off-Policy Evaluation
Created by
Haebom
Category
Empty
저자
Eilam Shapira, Omer Madmon, Reut Apel, Moshe Tennenholtz, Roi Reichart
개요
본 논문은 대규모 언어 모델(LLM) 기반 에이전트 설계에서 인간의 의사결정 예측, 특히 오프-폴리시 평가(OPE)에 초점을 맞추고 있습니다. 언어 기반 설득 게임을 중심으로, 전문가 에이전트가 언어적 메시지를 통해 의사결정자에게 영향을 미치는 상황을 연구합니다. 한 집합의 전문가 에이전트와의 상호작용 데이터를 사용하여 훈련된 예측 모델의 성능을 다른 집합의 전문가 에이전트와의 상호작용을 통해 평가하는 OPE 프레임워크를 제시합니다. 8만 7천 건의 인간 의사결정 데이터를 수집한 전용 애플리케이션을 활용하여, 에이전트 공간 전체와 시뮬레이션된 의사결정자 간의 상호작용을 포함하는 시뮬레이션 기법을 통해 OPE 성능을 향상시키는 학습 전략을 제안합니다. 이 전략은 특히 어려운 상위 15%의 경우 예측 정확도를 7.1% 향상시키는 등 상당한 OPE 성능 향상을 가져왔습니다. 수집 및 생성된 대규모 데이터셋과 코드는 GitHub 저장소(https://github.com/eilamshapira/HumanChoicePrediction)에서 공개적으로 제공됩니다.
시사점, 한계점
•
시사점:
◦
LLM 기반 에이전트 설계에서 인간 의사결정 예측의 중요성을 강조하고, OPE 프레임워크를 제시함으로써 관련 연구에 기여.
◦
제안된 시뮬레이션 기법을 통해 OPE 성능을 향상시키는 효과적인 학습 전략을 제시.
◦
대규모 인간 의사결정 데이터셋과 코드를 공개적으로 제공하여 후속 연구를 지원.
◦
어려운 경우의 예측 정확도를 상당히 향상시킴을 실증적으로 보임.
•
한계점:
◦
제시된 OPE 프레임워크와 시뮬레이션 기법의 일반화 가능성에 대한 추가적인 연구가 필요.
◦
다양한 유형의 설득 게임 및 의사결정 상황에 대한 적용 가능성을 검증할 필요.
◦
사용된 데이터셋의 특성(예: 게임의 종류, 참여자의 특징)이 결과에 미치는 영향에 대한 분석이 부족할 수 있음.