본 논문은 OpenAI의 GPT-4o(omni)의 다양한 작업에 대한 능력을 탐구한다. 기존 연구에서 영감을 얻어, 신중하게 엄선된 테스트 샘플과 함께 작업 분류 체계를 구성하여 포괄적인 정성적 테스트를 수행했다. GPT-4o의 강력한 다중 모드 이해 덕분에, 이미지 생성 과정은 기존 이미지 생성 작업을 능가하는 능력을 보여준다. 전통적인 이미지 생성 작업, 판별적 작업, 지식 기반 생성, 상식 기반 생성, 공간 인식 이미지 생성, 시간 인식 이미지 생성 등 여섯 가지 작업 범주에서 성능을 평가했다. 이러한 작업은 모델 출력의 품질과 조건 정렬을 평가할 뿐만 아니라 실제 개념에 대한 GPT-4o의 이해를 더 깊이 파고든다. 결과적으로 GPT-4o는 텍스트-이미지 생성, 시각적 스타일링, 저수준 이미지 처리에서 강력한 기능을 보이는 범용 합성 작업에서 인상적으로 잘 수행된다. 그러나 정확한 공간 추론, 지시 사항 기반 생성 및 일관된 시간 예측 능력에는 상당한 한계가 있다. 또한 과학 그림이나 수학 플롯과 같은 지식 집약적이거나 도메인 특정 시나리오에 직면하면 모델은 종종 환각, 사실적 오류 또는 구조적 불일치를 보인다. 이러한 결과는 GPT-4o가 통합된 다중 모달 생성에서 상당한 발전을 나타내지만, 전문적인 또는 안전에 중요한 영역에 안정적으로 적용되기까지는 아직 갈 길이 멀다는 것을 시사한다.