ハイパーパラメータ (機械学習)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/09/09 14:04 UTC 版)
ハイパーパラメータ(英語: Hyperparameter) は、機械学習の学習プロセスにおいて任意の設定可能な部分を定義するために設定可能なパラメータ。これは、通常のパラメータがモデルがデータから学習する特徴量を指すこととは対照的である。ハイパーパラメータは、それがどのように学習過程に作用するかに応じて、モデルハイパーパラメータかアルゴリズムハイパーパラメータかに二分される。
ハイパーパラメータは、全てのモデルやアルゴリズムに必須な量ではない。実際、いくつかの単純なアルゴリズム(例えば標準最小二乗法)にハイパーパラメータは存在しない。ハイパーパラメータを厳密に定義する必要がないモデルやアルゴリズムであっても、それらが慎重に選択されない場合、意味のある結果を生成しない可能性がある。しかしながら、最適なハイパーパラメータを予測することはいつでも簡単というわけではない。多くの場合、データとタスクに適した組み合わせを見つけるためには、ハイパーパラメータ最適化という別個のプロセスが必要となる。
ハイパーパラメータを活用することで、モデル性能の向上がもたらされるだけでなく、堅牢性や再現性のある研究の実行が可能となる。これは特に、乱数生成を組み込んだモデルを使用する際に顕著である。
考慮するべき事項
モデルを訓練し、検証するために必要な時間は、ハイパーパラメータの選択に依存する場合がある[1]。 ハイパーパラメータは、通常連続型あるいは整数型であり、混合型最適化問題を引き起こす[1]。 いくつかのハイパーパラメータは他のハイパーパラメータの値に依存する場合がある。例えば、隠れ層1層あたりのサイズは、隠れ層の数に依存する[1]。
学習困難なハイパーパラメータ
多くの場合、モデルパラメータの学習に利用できるような勾配法はハイパーパラメータの学習には利用できない。そのようなハイパーパラメータは、一般的な最適化手法では学習できないモデル表現を記述するパラメータであるが、損失関数に影響を与えるものである。例として、サポートベクターマシンにおける誤差に対する許容誤差ハイパーパラメータが挙げられる。
学習不可能なハイパーパラメータ
時として、ハイパーパラメータは学習データから学習できないことがある。そういったハイパーパラメータはモデルの容量を過度に増加させ、損失関数を望ましくない最小値(データへの過剰適合)に押し込む可能性があるためである。例えば、回帰モデルを適合させる多項式方程式の次数を学習可能なパラメータとして扱う場合、モデルがデータに完全に適合するまで次数は増加し、学習誤差は低くなるが、汎化性能は低下する。
調整可能性
パフォーマンスの変動の大部分は、ごく少数のハイパーパラメータに起因する[2][1][3]。アルゴリズム、ハイパーパラメータ、または相互作用するハイパーパラメータの調整可能性とは、それらを調整することで得られるパフォーマンス向上の度合いを測る尺度である[4]。 LSTMの場合、学習率とネットワークサイズが最も重要なハイパーパラメータである一方[5]、 バッチサイズとモーメンタムはパフォーマンスに有意な影響を与えない[6]。
数千単位のミニバッチサイズの使用を提唱する研究もある一方、他の研究では2~32のミニバッチサイズで最高の性能が得られることが確認されている[7]。
堅牢性
学習に内在するランダム性は、経験的ハイパーパラメータ性能が必ずしも真の性能ではないことを直接的に示唆する[1]。ハイパーパラメータ、乱数シード、あるいは同一アルゴリズムの異なる実装といった単純な変更に対して堅牢でない手法は、大幅な簡素化と堅牢化なしに任務上重要な制御システムに統合することはできない[8]。
特に、強化学習アルゴリズムにおいては、多数の乱数シードにおける性能評価と、ハイパーパラメータ選択に対する感度評価を必要とする[8]。少数のランダムシードによる評価では変動が大きいため、性能を適切に捉えられない[8]。深層決定論的ポリシー勾配法(Deep Deterministic Policy Gradient; DDPG)など、一部の強化学習手法は他の手法よりもハイパーパラメータ選択の影響を受けやすい[8]。
最適化
ハイパーパラメータ最適化は、与えられたテストデータに対して、損失関数を最小化するような最適なハイパーパラメータの組み合わせを探索する作業のことを指す[1]。ここでの損失関数は、ハイパーパラメータの組を入力として受けとり、関連する損失を返す[1]。典型的には、これらの手法は勾配法に基づくものではなく、代わりに微分不要最適化やブラックボックス最適化の概念を適用する。
再現性
ハイパーパラメータの調整に加え、機械学習ではパラメータや結果の保存・整理、再現性の確保が不可欠である[9]。このための堅牢なインフラが整わない場合、研究コードは急速に進化し、記録管理や再現性といった本質的な側面が犠牲になりがちである[10]。機械学習向けのオンライン共同作業プラットフォームは、科学者が実験、データ、アルゴリズムを自動的に共有・整理・議論できるようにすることで、さらに一歩進んだ機能を提供する[11]。再現性は特に深層学習モデルにおいて困難を伴うとされており[12]、例えば乱数生成の際の乱数シードの選択にも大きく依存することが示されている[13]。
関連項目
- ハイパーヒューリスティック
- 再現性の危機
参照
- ^ a b c d e f g “Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015).”. Bibcode: 2015arXiv150202127C
- ^ Leyton-Brown, Kevin; Hoos, Holger; Hutter, Frank (January 27, 2014). An Efficient Approach for Assessing Hyperparameter Importance. pp. 754–762.
- ^ “van Rijn, Jan N., and Frank Hutter. "Hyperparameter Importance Across Datasets." arXiv preprint arXiv:1710.04725 (2017).”. Bibcode: 2017arXiv171004725V
- ^ “Probst, Philipp, Bernd Bischl, and Anne-Laure Boulesteix. "Tunability: Importance of Hyperparameters of Machine Learning Algorithms." arXiv preprint arXiv:1802.09596 (2018).”. Bibcode: 2018arXiv180209596P
- ^ Greff, K.; Srivastava, R. K.; Koutník, J.; Steunebrink, B. R.; Schmidhuber, J. (October 23, 2017). “LSTM: A Search Space Odyssey”. IEEE Transactions on Neural Networks and Learning Systems 28 (10): 2222–2232. arXiv:1503.04069. doi:10.1109/TNNLS.2016.2582924. PMID 27411231.
- ^ “Breuel, Thomas M. "Benchmarking of LSTM networks." arXiv preprint arXiv:1508.02774 (2015).”. Bibcode: 2015arXiv150802774B
- ^ “Revisiting Small Batch Training for Deep Neural Networks (2018).”. Bibcode: 2018arXiv180407612M
- ^ a b c d “Mania, Horia, Aurelia Guy, and Benjamin Recht. "Simple random search provides a competitive approach to reinforcement learning." arXiv preprint arXiv:1803.07055 (2018).”. Bibcode: 2018arXiv180307055M
- ^ “Greff, Klaus, and Jürgen Schmidhuber. "Introducing Sacred: A Tool to Facilitate Reproducible Research."”
- ^ “Greff, Klaus, et al. "The Sacred Infrastructure for Computational Research."”. オリジナルの2020年9月29日時点におけるアーカイブ。 2018年4月6日閲覧。
- ^ “Vanschoren, Joaquin, et al. "OpenML: networked science in machine learning." arXiv preprint arXiv:1407.7722 (2014).”. Bibcode: 2014arXiv1407.7722V
- ^ Villa (2018年5月25日). “Reproducibility in ML: why it matters and how to achieve it”. Determined AI Blog. 2020年8月31日閲覧。
- ^ Bethard, Steven (2022-10-24), We need to talk about random seeds, doi:10.48550/arXiv.2210.13393 2025年9月9日閲覧。
- ハイパーパラメータ_(機械学習)のページへのリンク