交差検証
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/03/09 04:29 UTC 版)
交差検証(交差確認)[1](こうさけんしょう、英: cross-validation)とは、統計学において標本データを分割し、その一部をまず解析して、残る部分でその解析のテストを行い、解析自身の妥当性の検証・確認に当てる手法を指す[2][3][4]。データの解析(および導出された推定・統計的予測)がどれだけ本当に母集団に対処できるかを良い近似で検証・確認するための手法である。
最初に解析するデータを「訓練事例集合(training set、訓練データ)」などと呼び、他のデータを「テスト事例集合(testing set、テストデータ)」などと呼ぶ。
交差検証はSeymour Geisserが生み出した。特にそれ以上標本を集めるのが困難(危険だったり、コストがかかったり)な場合は、データから導いた推定は、交差検証などで慎重に裏付けを確認するべきである。
交差検証の主な種類
ホールドアウト検証
初期標本群から事例を無作為に選択してテスト事例を形成し、残る事例を訓練事例とする。テスト事例に使われるのは初期の標本群の3分の1以下の場合が多い[5]。ただし一般にホールドアウト検証は交差検証には分類されない。なぜなら、データを交差させることがないためである。
k-分割交差検証

英名では" leave-one-out cross-validation (LOOCV,一個抜き交差検証) は、標本群から1つの事例だけを抜き出してテスト事例とし、残りを訓練事例とする。これを全事例が一回ずつテスト事例となるよう検証を繰り返す。これはK-分割交差検証の K を標本サイズにした場合と同じである。ただし、LOOCV にはカーネル回帰[要出典]やティホノフ正則化などと関連がある。
時系列データの場合、時系列の場合
交差検証
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/12/01 22:34 UTC 版)
詳細は「交差検証」を参照 統計学の場合も機械学習の場合も、追加の技法(交差検証)を用いることによって、過剰適合に陥らず、訓練がよりよい一般化となっていることを確認し、かつ示す必要がある。
※この「交差検証」の解説は、「過剰適合」の解説の一部です。
「交差検証」を含む「過剰適合」の記事については、「過剰適合」の概要を参照ください。
- 交差検証のページへのリンク