ニューラルスケーリング則とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > ニューラルスケーリング則の意味・解説 

ニューラルスケーリング則

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/11/11 16:48 UTC 版)

機械学習において、ニューラルスケーリング則(にゅーらるすけーりんぐそく、: neural scaling law)は、ニューラルネットワークのパラメータに関するスケーリング則である。[1][2]

概要

一般的に、ニューラルネットワークモデルは、モデルの大きさ、訓練データセットの大きさ、訓練コスト、訓練後の性能という4つのパラメータにより特徴付けられる。4つのパラメータは実数として正確に定義することができ、また単純な統計則に従うことが経験的に知られている。これらのパラメータは通常、(パラメータ数、データセットの大きさ、計算コスト、損失)と表記される。

モデルの大きさ

ほとんどの場合、モデルの大きさとはパラメータ数を指す。しかし、Mixture-of-Expert モデル[3]といったスパースモデルにおいてはその限りではない。スパースモデルの推論には、パラメータ全体の一部のみが利用される。それと比べて、他のほとんどのニューラルネットワークモデル(Transformer など)では、常にすべてのパラメータを利用して推論が行われる。

訓練データセットの大きさ

訓練データセットの大きさは通常、それに含まれるデータ点の数で定量化される。モデルの学習には豊富で多様な情報源が必要であるため、訓練データセットはより大きなものが好まれる。これにより、モデルを未知のデータを適用した際の汎化性能が向上する。[4] しかし、訓練データセットを大きくすることは、モデルの訓練に必要な計算リソースと時間が増加することも意味する。

ほとんどの大規模言語モデルで用いられている「事前に訓練し、微調整する」方法では、事前訓練データセットと微調整データセットと呼ばれる、2種類の訓練データセットが用いられる。これらの大きさはモデルの性能にそれぞれ異なる影響を及ぼす。一般的に、微調整には事前訓練時と比べて1%未満の大きさのデータセットが用いられる。[5]

微調整には少数の高品質なデータで十分であり、より多くのデータを用いても性能が向上しない場合もある。[5]

訓練コスト

訓練コストは通常、時間(訓練にどれだけの時間が必要か)と計算リソース(訓練にはどれだけの計算能力とメモリが必要か)の観点から測られる。特筆すべきは、訓練コストは効率的な訓練アルゴリズム、最適化されたソフトウェア、GPUTPU 上での並列計算により大幅に削減できることである。

ニューラルネットワークモデルの訓練コストは、モデルの大きさ、訓練データセットの大きさ、訓練アルゴリズムの複雑さ、利用可能な計算リソースといった要素の関数として考えることができる。[4] 特に、訓練データセットを2倍に増やすことは、必ずしも訓練コストが2倍になることを意味しない。これは、あるデータセット(これを1エポックとして扱う)に対して何回もモデルを訓練することがあるためである。

性能

ニューラルネットワークモデルの性能は、与えられた入力から、どれほど正確に出力を予測できるかで評価される。一般的な評価指標としては以下がある。[4]

モデルの性能は、より多くのデータ、より大きなモデル、異なる訓練アルゴリズムの併用、過適合の防止、検証データセットによる早期終了により改善することができる。

参考文献

  1. ^ Bahri, Yasaman; Dyer, Ethan (12 February 2021). "Explaining Neural Scaling Laws". arXiv:2102.06701 [cs.LG]。
  2. ^ Hestness, Joel; Narang, Sharan (1 December 2017). "Deep Learning Scaling is Predictable, Empirically". arXiv:1712.00409 [cs.LG]。
  3. ^ Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (2022-06-28). “DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale” (英語). Proceedings of the 39th International Conference on Machine Learning (PMLR): 18332–18346. https://proceedings.mlr.press/v162/rajbhandari22a.html. 
  4. ^ a b c Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  5. ^ a b Zhou, Chunting; Liu, Pengfei; Xu, Puxin; Iyer, Srini; Sun, Jiao; Mao, Yuning; Ma, Xuezhe; Efrat, Avia et al. (2023-05-01). LIMA: Less Is More for Alignment. https://ui.adsabs.harvard.edu/abs/2023arXiv230511206Z. 
  6. ^ Andy L. Jones, Scaling Scaling Laws with Board Games
  7. ^ LMSYS Chatbot leaderboard



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  
  •  ニューラルスケーリング則のページへのリンク

辞書ショートカット

すべての辞書の索引

「ニューラルスケーリング則」の関連用語

1
2% |||||

ニューラルスケーリング則のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



ニューラルスケーリング則のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのニューラルスケーリング則 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2024 GRAS Group, Inc.RSS