본 논문은 대규모 다중 모달 모델(LMMs)에서 생성된 이미지의 성별 편향을 평가하기 위한 벤치마크인 Aymara Image Fairness Evaluation을 제시합니다. 13개의 상용 LMM을 사용하여 75개의 성별 중립적인 프롬프트로 이미지를 생성하고, 검증된 LLM을 이용하여 성별 표현을 평가했습니다. 그 결과, LMMs는 실제 노동 데이터에 비해 직업 성별 고정관념을 증폭시키고, 성별 중립적인 직업에서도 남성을 과다하게 생성하는 경향을 보였습니다. 모델 간 편향의 정도는 크게 달랐으며, 최고 성능 모델은 성별 고정관념을 완화하고 성별 균형에 가까워졌습니다. 이는 고정관념 증폭이 불가피한 결과가 아니라 설계 선택의 결과임을 시사합니다. 본 연구는 현재까지 가장 포괄적인 성별 편향에 대한 다중 모델 벤치마크를 제공하며, AI 개발에서 책임감과 공정성을 증진하기 위한 표준화되고 자동화된 평가 도구의 필요성을 강조합니다.