本論文は、科学文献の増加量を処理するための効率的なテキスト分類方法を提示する。 BERT、SciBERT、BioBERT、BlueBERTなどの事前訓練された言語モデル(PLM)をWeb of Science(WoS-46985)データセットに微調整して科学テキスト分類に適用します。 WoSデータベースで7つのターゲットクエリを実行して、WoS-46985の主要な分類に一致する各分類に1,000の論文を追加してデータセットを拡張します。 PLMを使用してラベルなしデータのラベルを予測し、ハードボーティング戦略を使用して予測結果を組み合わせて精度と信頼性を向上させます。動的学習率と早期終了を使用して拡張データセットの微調整を実行して、分類精度、特に専門分野での精度を大幅に向上させます。 SciBERTやBioBERTなどのドメイン特化モデルは、BERTのような汎用モデルよりも継続的に優れた性能を示しています。これらの結果は、データセットの強化、推論ベースのラベル予測、ハードボーティング、および微調整技術が、自動化された学術テキスト分類のための強力でスケーラブルなソリューションを作成するのに有効であることを強調しています。