본 논문은 자기회귀적 대규모 언어 모델(LLM)을 텍스트 토큰으로 학습시키면, 이미지와 오디오를 이해하는 능력이 내재적으로 발달하여 읽기만으로 보고 듣는 능력을 갖게 된다는 놀라운 발견을 제시합니다. 기존의 오디오 및 비주얼 LLM 모델은 이미지와 오디오 임베딩을 조건으로 텍스트 출력을 생성하도록 텍스트 LLM 모델을 미세 조정하는 반면, 본 논문의 아키텍처는 이미지 패치, 오디오 파형 또는 토큰을 입력으로 받아 분류 파이프라인의 임베딩 또는 범주 레이블을 출력합니다. 본 연구는 FSD-50K 및 GTZAN 데이터셋의 오디오 분류를 돕는 데 있어 텍스트 가중치의 일반성을 보여주며, CIFAR-10 및 Fashion-MNIST 이미지 분류와 이미지 패치에서도 이러한 기능이 작동함을 보여줍니다. 이는 매번 처음부터 모델을 훈련하는 대신 다양한 응용 프로그램에 필요한 연결을 활성화하여 활용할 수 있는 강력한 내부 회로를 텍스트 LLM이 학습한다는 개념을 제시합니다.