この論文は、巨大言語モデル(LLM)の進歩に基づいて、視覚言語モデル(VLM)、特に微調整されたLLaMa 3.2バリアントを使用して、高エネルギー物理学(HEP)実験のピクセル化検出器データで中性子相互作用を識別するアプリケーションを探求します。電子およびミューオンニュートリノイベント分類で高い効率と純度を達成したNOvAおよびDUNE実験で使用されているものと同様の最先端の合成積ニューラルネットワーク(CNN)アーキテクチャとこのモデルを比較評価します。モデル予測の分類性能と解釈可能性の両方を考慮し,VLMはCNNよりも優れた性能を持ち,補助テキストまたは意味情報統合の柔軟性が大きく,解釈可能な推論ベースの予測を提供した。本研究は、高性能、解析可能性、一般化の可能性により、VLMが物理的事象分類のための汎用バックボーンとしての可能性を強調し、実験的ニュートラル物理学におけるマルチモード推論を統合する新しい道を開きます。