본 논문은 대규모 언어 모델(LLM)의 사회적 활용 확장을 위해 다중 사용자, 다회차 사회적 에이전트 작업 수행 능력 평가의 필요성을 제기한다. 기존 벤치마크의 부재를 해결하고자, 사회학적 원리에 기반한 에이전트 작업 레벨링 프레임워크와 새로운 벤치마크인 How Social Is It (HSII)를 제안한다. HSII는 형식 파싱, 목표 선택, 목표 전환 대화, 안정적인 대화의 네 단계로 구성되어 있으며, 실제 사회적 상호 작용 시나리오 데이터셋인 HSII-Dataset을 기반으로 LLMs의 의사소통 및 작업 완료 능력을 평가한다. HSII-Dataset은 뉴스 데이터셋에서 단계적으로 도출되며, 군집 분석을 통한 ablation study를 수행한다. 또한, 사고 연쇄(COT) 방법이 LLMs의 사회적 성능 향상에 미치는 영향을 조사하고, COT의 계산 비용을 고려하여 COT-complexity라는 새로운 통계 지표를 제시하여 효율성과 정확성 간의 균형을 모색한다. 실험 결과는 HSII 벤치마크가 LLMs의 사회적 기술 평가에 적합함을 보여준다.