본 논문은 대규모 언어 모델(LLM)의 의사결정 과정을 상호 작용적이고 적대적인 환경에서 체계적으로 스트레스 테스트하기 위한 적대적 평가 프레임워크를 제시합니다. 기존 평가 지표가 추론 정확성이나 사실적 정확성에만 초점을 맞추는 것과 달리, 본 논문의 프레임워크는 적대적 조작에 대한 LLMs의 강건성과 동적 환경에서의 적응 전략 사용 능력을 평가합니다. 인지 심리학과 게임 이론의 방법론을 활용하여, 두 팔 밴딧 과제와 다회차 신뢰 과제라는 두 가지 전형적인 과제를 통해 탐색-활용 간의 절충, 사회적 협력, 전략적 유연성 등을 평가합니다. GPT-3.5, GPT-4, Gemini-1.5, DeepSeek-V3 등 최첨단 LLMs에 이 프레임워크를 적용하여 모델별 취약성과 전략 적응의 경직성을 밝히고, 신뢰할 수 있는 AI 배포를 위한 적응성과 공정성 인식의 중요성을 강조합니다. 성능 벤치마크를 제공하는 대신, LLM 기반 에이전트의 의사결정 약점을 진단하고 정렬 및 안전 연구를 위한 실행 가능한 통찰력을 제공하는 방법론을 제안합니다.