본 논문은 자기회귀적 대규모 언어 모델(LLM)을 텍스트 토큰으로 학습시키는 것만으로도 이미지와 오디오를 이해하는 능력, 즉 보고 듣는 능력을 내재적으로 개발한다는 흥미로운 발견을 제시합니다. 기존의 오디오 및 비주얼 LLM 모델들은 이미지와 오디오 임베딩을 조건으로 텍스트 출력을 생성하도록 텍스트 LLM 모델을 미세 조정하는 반면, 본 논문의 아키텍처는 이미지 패치, 오디오 파형 또는 토큰을 입력으로 받아 분류 파이프라인에서 일반적으로 볼 수 있는 임베딩 또는 범주 레이블을 출력합니다. 본 논문은 텍스트 가중치의 일반성을 FSD-50K 및 GTZAN 데이터셋의 오디오 분류 지원에 적용하여 보여주며, CIFAR-10 및 Fashion-MNIST에 대한 이미지 분류와 이미지 패치에도 이러한 방식이 작동함을 보여줍니다. 이는 매번 처음부터 모델을 학습시키는 대신 필요한 연결을 활성화하여 다양한 응용 프로그램에 활용할 수 있는 강력한 내부 회로를 텍스트 LLM이 학습한다는 개념을 제시합니다.