본 논문은 다양한 상황과 목표 하에 장기간에 걸쳐 사람들과 상호 작용하는 인간의 사회적 상호 작용을 모방하는 새로운 벤치마크인 LIFELONG-SOTOPIA를 제시합니다. LIFELONG-SOTOPIA는 다중 에피소드 상호 작용을 시뮬레이션하여 언어 에이전트를 종합적으로 평가합니다. 각 에피소드에서 언어 에이전트는 역할극을 통해 무작위로 선택된 사회적 과제에서 각자의 사회적 목표를 달성하려고 시도합니다. 실험 결과, 테스트된 모든 언어 모델의 목표 달성률과 신뢰성은 상호 작용 전반에 걸쳐 감소하는 것으로 나타났습니다. 고급 메모리 메서드를 사용하면 에이전트의 성능이 향상되지만, 상호 작용 이력에 대한 명시적인 이해가 필요한 시나리오에서는 여전히 인간보다 목표 달성률이 현저히 낮았습니다. 이러한 결과는 LIFELONG-SOTOPIA를 사용하여 장기간의 사회적 상호 작용에 걸쳐 언어 에이전트의 사회적 지능을 평가할 수 있음을 보여줍니다.