본 논문은 대규모 언어 모델(LLM)의 설득력을 평가하기 위한 자동화된 프레임워크인 Persuade Me If You Can (PMIYC)를 제시합니다. PMIYC는 다중 에이전트 상호작용을 통해 설득 과정을 평가하며, 설득자 에이전트와 피설득자 에이전트 간의 다회차 대화를 분석하여 LLM의 설득 효과와 설득에 대한 취약성을 측정합니다. 다양한 LLM을 대상으로 주관적 맥락과 잘못된 정보 맥락 모두에서 평가를 수행하고, 인간 평가를 통해 프레임워크의 효과를 검증합니다. 실험 결과, Llama-3.3-70B와 GPT-4o는 유사한 설득 효과를 보이며 Claude 3 Haiku보다 30% 우수한 성능을 나타냈지만, 잘못된 정보에 대한 저항력은 GPT-4o가 Llama-3.3-70B보다 50% 이상 높았습니다.