본 논문은 기존 튜링 테스트의 한계를 극복하기 위해, 연속적인 메시지를 허용하는 '버스트 대화(burst dialogue)' 패턴을 도입한 새로운 튜링 테스트인 \textbf{\textsc{X-Turing}}을 제안합니다. 이는 대규모 언어 모델(LLM)의 장기간 복잡한 상호작용 평가를 가능하게 합니다. \textsc{X-Turing}은 인간의 작업량을 줄이기 위해, LLM과 인간 간의 장기간 상호작용을 시뮬레이션한 '의사 대화(pseudo-dialogue)'를 생성하고, 이를 바탕으로 짧은 실제 인간과의 대화를 진행합니다. 이후 인간-인간 대화와 비교하여 설문지를 통해 평가하고, 'X-Turn 통과율(X-Turn Pass-Rate)' 지표를 사용하여 LLM의 인간 유사성을 다양한 대화 길이에 걸쳐 평가합니다. GPT-4와 같은 LLM은 초기에는 높은 통과율을 보이지만(3턴: 51.9%, 10턴: 38.9%), 대화가 길어질수록 성능이 저하되는 것을 보여줍니다.