LLM 에이전트 협업이 수학 문제 풀이 능력 향상에 기여하지만, 적대적 입력에 대한 강인성에도 긍정적인 영향을 미치는지에 대한 연구를 수행했습니다. 6개의 오픈 소스 모델(Qwen3-4B/14B, Llama3.1-8B, Mistral-7B, Gemma3-4B/12B)을 대상으로, 다양한 수의 에이전트(1~25명)를 활용하여, 구두점 노이즈(10, 30, 50%), 실제 및 인간형 오타(WikiTypo, R2ATA)를 포함한 적대적 입력을 사용하여 4개의 벤치마크(GSM8K, MATH, MMLU-Math, MultiArith)에서 평가했습니다.