Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

PLaMo 2 Technical Report

Created by
  • Haebom

作者

Preferred Networks,:, Kaizaburo Chubachi, Yasuhiro Fujita, Shinichi Hemmi, Yuta Hirokawa, Toshiki Kataoka, Goro Kobayashi, Kenichi Maehashi, Calvin Metzger, Hiroaki Mikami, Shogo Murai, Daisuke Nishino, Kento Nozawa,さいとう、しょろろさの、すずすずき、田中岳、アビナシュ・ウムマディシング、ハンキンワン、シクウワン、ティアンキ・スウ

概要

PLaMo 2は、日本語に特化した一連の大規模言語モデルです。 Sambaベースのハイブリッドアーキテクチャを使用し、継続的な事前トレーニングを通じて32Kトークンコンテキストをサポートする完全なアテンションに切り替えます。データ不足の問題を解決するために,広範な合成杭を利用して訓練され,重みの再利用と構造的剪定により計算効率を達成した。この効率的な剪定方法論により、100Bモデルと同様の性能を達成する8Bモデルを作成した。ポストトレーニングは、指導学習微調整(SFT)と直接選好度最適化(DPO)パイプラインを使用してモデルをさらに改善し、合成日本語指示データとモデルマージ技術を活用しました。 vLLMと量子化を使用して推論を最適化することで精度の損失を最小限に抑え、日本語のベンチマークで最先端の結果を達成し、指示に従うこと、言語の流暢さ、および日本語特有の知識の観点から同様のサイズのオープンモデルを上回ります.

Takeaways、Limitations

Takeaways:
Sambaベースのハイブリッドアーキテクチャと継続的な事前トレーニングによる32Kトークンコンテキストのサポートにより、大規模言語モデルの効率とパフォーマンスが向上しました。
合成データの活用と効率的な剪定技術により、8Bモデルで100Bモデルレベルの性能を達成し、モデル軽量化に成功しました。
SFT、DPO、合成データ、モデルマージ技術を活用した事後トレーニングにより、日本のベンチマークで最先端のパフォーマンスを達成しました。
VLLMと量子化による推論最適化により、精度を低下させることなく効率的な推論が可能です。
Limitations:
合成データへの依存度が高く、実際のデータとの違いによる性能低下の可能性が存在する。
モデルの規模は縮小しましたが、依然としてかなりの計算リソースが必要になる可能性があります。
本論文では、具体的な合成データ生成方法やSFT、DPOパイプラインの詳細な設定についての説明が不足しています。
他の言語への適用性と一般化性能の検証が不十分です。
👍