本論文は、医学教育資料内の不適切な言語使用(IUL)を自動的に識別するための小型言語モデル(SLM)と事前訓練された大型言語モデル(LLM)の性能を評価した研究です。約500文書(12,000ページ以上)のデータセットを使用して、IUL一般分類器、サブカテゴリ別バイナリ分類器、マルチラベル分類器、および階層パイプラインなど、さまざまなSLMモデルと、いくつかのプロンプトバリエーションを適用したLLM(Llama-3 8Bおよび70B)を比較分析しました。その結果、慎重に構成されたショットを使用したLLMよりもSLMのパフォーマンスがはるかに優れており、特に不適切な言語使用事例がない部分を音声例としてさらに訓練したサブカテゴリ別バイナリ分類器が最も効果的であることがわかりました。