본 논문은 최신 거대 다중 모달 모델(LMM)의 지시사항 따르기 능력을 종합적으로 평가하기 위한 새로운 벤치마크인 OmniGenBench를 제시합니다. OmniGenBench는 실제 시나리오를 기반으로 한 57개의 다양한 하위 작업으로 구성되며, 지각 중심 및 인지 중심 차원 모두에서 모델의 능력을 체계적으로 평가합니다. 지각 중심 작업에는 기존의 시각 분석 도구를, 인지 중심 작업에는 강력한 LLM 기반 판정자를 활용하여 생성된 이미지와 사용자 지시사항의 일치도를 평가하는 이중 모드 프로토콜을 사용합니다. GPT-4o, Gemini-2.0-Flash, Seedream과 같은 주요 생성 모델을 OmniGenBench를 이용하여 평가하고 성능을 비교 분석합니다. 코드와 데이터는 GitHub에서 공개됩니다.