본 논문은 대규모 언어 모델(LLM)에 물리적 인식, 특히 소리를 통한 물리 현상 이해(도플러 효과, 다중경로 효과, 공간적 관계 등)를 부여하는 ACORN 프레임워크를 제시합니다. 데이터 부족 문제를 해결하기 위해 실제 음원과 제어된 물리적 채널을 결합한 물리 기반 시뮬레이터를 사용하여 다양한 훈련 데이터를 생성하고, 이를 바탕으로 AQA-PHY라는 종합적인 오디오 질의응답 데이터셋을 구축했습니다. 진폭과 위상 정보를 모두 처리하는 오디오 인코더를 제안하여 최첨단 LLM에 연결함으로써, 시뮬레이션 및 실제 환경 모두에서 시선 검출, 도플러 효과 추정, 도착 방향 추정 등의 작업에서 합리적인 결과를 보였습니다. 이는 LLM이 물리적 세계를 이해할 수 있도록 하는 길을 열어줍니다.