PIXEL-M4는 영어, 힌디어, 우크라이나어, 간체 중국어 4개 언어로 사전 훈련된 픽셀 언어 모델입니다. 기존의 고정된 어휘집이 필요 없이 렌더링된 텍스트 이미지를 직접 처리하며, 다국어 사전 훈련을 통해 비라틴 문자 언어에서 영어 전용 모델보다 우수한 성능을 보입니다. 의미 및 구문 작업에 대한 다국어 평가와 단어 수준 조사 분석을 통해 다양한 언어적 특징을 포착하고, 다국어 사전 훈련이 다양한 언어를 효과적으로 지원하는 데 기여함을 보여줍니다.