偏りと分散
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/11/07 03:51 UTC 版)
機械学習および データマイニング |
---|
![]() |
![]() |
偏りと分散やバイアス-バリアンスのトレードオフ(かたよりとぶんさんのトレードオフ、英: bias–variance tradeoff)とは、統計学と機械学習において、パラメータの推定においてバイアス(偏り)を減らすと標本間のバリアンス(分散)が増え、同時にその逆も成立する、という予測モデルの特徴のことである。
バイアス-バリアンスのジレンマ(bias–variance dilemma)やバイアス-バリアンスの問題(bias–variance problem)とは、誤差の原因であるバイアスとバリアンスの両方を同時に減らそうとする際の対立の事であり、教師あり学習のアルゴリズムが訓練データの内容を超えて汎化する際の課題となる。
- バイアス(偏り)
- 学習アルゴリズムにおいて、誤差のうち、モデルの仮定の誤りに由来する分。バイアスが大きすぎることは、入力と出力の関係を適切に捉えられていないことを意味し、過少適合している。
- バリアンス(分散)
- 誤差のうち、訓練データの揺らぎから生じる分。バリアンスが大きすぎることは、本来の出力ではなく、訓練データのランダムなノイズを学習していることを意味し、過剰適合している。
バイアス-バリアンス分解(bias–variance decomposition)とは、汎化誤差の期待値をバイアス+バリアンス+ノイズの3つの和に分解することである。
バイアス-バリアンスのトレードオフは、全ての教師あり学習で生じる。人間の学習において、人間がヒューリスティクスを使用することの有効性の説明にも使用されている[1]。
日本語での訳語
統計学では通常 bias は偏り、variance は分散と翻訳するが、この文脈ではバイアスとバリアンスとカタカナで表記されることが多い。書籍『パターン認識と機械学習』の翻訳者はバイアス-バリアンスと訳し[2]、書籍『統計的学習の基礎』の翻訳者はバイアス-分散と訳した[3]。
二乗誤差のバイアス-バリアンス分解
データとして入力 カテゴリ
- 偏りと分散のページへのリンク