본 논문은 대규모 언어 모델(LLM)의 공정성 평가를 위한 새로운 벤치마크인 FLEX(Fairness Benchmark in LLM under Extreme Scenarios)를 제안합니다. 기존 벤치마크들이 LLM의 고유한 취약점을 간과하고, 단순한 적대적 지시에도 편향된 응답을 생성할 수 있다는 점을 지적하며, FLEX는 편향을 유도하도록 설계된 프롬프트를 사용하여 극단적인 상황에서도 LLM이 공정성을 유지하는지 평가합니다. FLEX와 기존 벤치마크 간의 비교 실험을 통해 기존 평가가 모델의 고유한 위험을 과소평가할 수 있음을 보여주고, 안전성과 공정성을 보장하기 위해 더욱 엄격한 LLM 평가 벤치마크가 필요함을 강조합니다.