본 논문은 거대 언어 모델(LLM)의 발전을 바탕으로, 시각 언어 모델(VLM), 특히 미세 조정된 LLaMa 3.2 변형을 사용하여 고에너지 물리학(HEP) 실험의 픽셀화된 검출기 데이터에서 중성미자 상호 작용을 식별하는 응용 프로그램을 탐구합니다. 전자 및 뮤온 중성미자 사건 분류에서 높은 효율과 순도를 달성한 NOvA 및 DUNE 실험에서 사용되는 것과 유사한 최첨단 합성곱 신경망(CNN) 아키텍처와 이 모델을 비교 평가합니다. 모델 예측의 분류 성능과 해석 가능성을 모두 고려하며, VLM이 CNN보다 성능이 우수하고 보조 텍스트 또는 의미 정보 통합의 유연성이 더 크며, 더 해석 가능한 추론 기반 예측을 제공함을 발견했습니다. 본 연구는 높은 성능, 해석 가능성 및 일반화 가능성으로 인해 VLM이 물리적 사건 분류를 위한 범용 백본으로서의 잠재력을 강조하며, 실험적 중성미자 물리학에서 다중 모드 추론을 통합하는 새로운 길을 열어줍니다.