Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Advancing Scientific Text Classification: Fine-Tuned Models with Dataset Expansion and Hard-Voting

Created by
  • Haebom

作者

Zhyar Rzgar K Rostam, G abor Kert esz

概要

本論文は、科学文献の増加量を処理するための効率的なテキスト分類方法を提示する。 BERT、SciBERT、BioBERT、BlueBERTなどの事前訓練された言語モデル(PLM)をWeb of Science(WoS-46985)データセットに微調整して科学テキスト分類に適用します。 WoSデータベースで7つのターゲットクエリを実行して、WoS-46985の主要な分類に一致する各分類に1,000の論文を追加してデータセットを拡張します。 PLMを使用してラベルなしデータのラベルを予測し、ハードボーティング戦略を使用して予測結果を組み合わせて精度と信頼性を向上させます。動的学習率と早期終了を使用して拡張データセットの微調整を実行して、分類精度、特に専門分野での精度を大幅に向上させます。 SciBERTやBioBERTなどのドメイン特化モデルは、BERTのような汎用モデルよりも継続的に優れた性能を示しています。これらの結果は、データセットの強化、推論ベースのラベル予測、ハードボーティング、および微調整技術が、自動化された学術テキスト分類のための強力でスケーラブルなソリューションを作成するのに有効であることを強調しています。

Takeaways、Limitations

Takeaways:
データセットの強化、推論ベースのラベル予測、ハードボーティング、微調整技術を組み合わせることで、科学文献分類の精度と効率を向上させることができることを示しています。
ドメインに特化したPLM(SciBERT、BioBERT)が汎用PLM(BERT)よりも科学文献の分類に適していることを確認しました。
この研究の方法論は、他のドメインのテキスト分類にも適用可能な一般的なフレームワークを提供します。
Limitations:
WoSデータベースに依存してデータセットを構成したので、他のデータベースやデータセットに一般化可能性についてのさらなる研究が必要。
使用されたハードボーティング戦略以外の他の Ensemble 方法を適用することにより、パフォーマンス比較分析が必要です。
特定のドメインに対するパフォーマンスの向上は、データセットのサイズと品質に依存する可能性があるため、さまざまな規模と品質のデータセットに対する追加の実験が必要です。
👍