본 논문은 다중 모달 대규모 언어 모델(MLLM)이 텍스트와 이미지를 포함한 여러 모달리티를 통합하는 데 집중합니다. 텍스트와 이미지는 상호 연결되어 다중 모달 속성 그래프(MMAG)를 형성하는데, 기존 MLLM은 이러한 그래프의 관계 정보(그래프 구조)와 의미 정보(텍스트와 이미지)를 다중 모달 이해 및 생성에 효과적으로 통합하지 못했습니다. 본 논문에서는 MMAG에 대한 범용 다중 모달 이해 및 생성을 지원하는 GraphGPT-o를 제안합니다. MLLM의 입력으로 의미 및 구조 정보를 변환하기 위한 선형화 변형을 연구하고, MMAG와 MLLM 간의 간극을 메우는 계층적 정렬기를 제안합니다. 또한 그래프 시나리오에서 텍스트와 이미지의 교차 생성에 MLLM을 적용하기 위한 추론 방법을 탐구합니다. 다양한 도메인의 세 가지 데이터셋에 대한 광범위한 실험을 통해 제안된 방법의 효과를 입증하고, 수락 시 데이터셋과 코드를 공개할 예정입니다.