대규모 언어 모델(LLM)의 발전과 함께, 본 연구는 LLM이 단순한 질문-응답을 넘어 인간과 유사한 대화 능력과 행동 모방 능력을 얼마나 잘 수행할 수 있는지에 주목한다. 특히, LLM이 실제 인간의 감정과 행동을 얼마나 정확하게 재현하고, 이러한 재현이 실제 시나리오에서 효과적으로 작동할 수 있는지에 대한 관심이 높다. 기존 벤치마크는 지식 기반 평가에 초점을 맞춰 사회적 상호작용 및 전략적 대화 능력을 충분히 반영하지 못한다는 한계를 해결하기 위해, 본 연구는 구매 및 판매 협상 시뮬레이션을 활용하여 LLM의 인간 감정 및 행동 모방, 전략적 의사 결정 능력을 정량적으로 평가하는 방법론을 제시한다. 여러 LLM에 다양한 페르소나를 할당하고 구매자와 판매자 간 협상을 진행하여 승률, 거래 가격, SHAP 값과 같은 결과를 종합적으로 분석한다.