본 연구는 국제 관계(IR) 맥락에서 7개의 주요 기초 모델(Llama 3.1 8B Instruct, Llama 3.1 70B Instruct, GPT-4o, Gemini 1.5 Pro-002, Mixtral 8x22B, Claude 3.5 Sonnet, Qwen2 72B)의 편향성과 선호도를 평가하기 위한 새로운 벤치마크를 제시한다. 400개의 전문가가 작성한 시나리오를 사용하여 군사적 고조, 군사 및 인도주의적 개입, 국제 시스템에서의 협력적 행동, 동맹 역학 등 4가지 주제 영역에 초점을 맞춰 분석을 진행했다. 분석 결과, 모델의 권고 사항은 시나리오에 따라 상당한 차이를 보였으며, 특히 Qwen2 72B, Gemini 1.5 Pro-002, Llama 3.1 8B Instruct 모델은 Claude 3.5 Sonnet 및 GPT-4o 모델보다 훨씬 더 많은 고조적인 권고를 제시했다. 모든 모델은 특정 국가에 대한 편향성을 어느 정도 보였으며, 미국과 영국에 비해 중국과 러시아에 대해서는 고조적이거나 개입적인 행동을 덜 권고하는 경향을 보였다.