分類_(統計学)とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > 百科事典 > 分類_(統計学)の意味・解説 

分類 (統計学)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/12/03 01:29 UTC 版)

ナビゲーションに移動 検索に移動

分類(ぶんるい、: classification)や統計的分類統計的識別とは、統計学において、データを複数のクラス(グループ)に分類すること。2つのクラスに分ける事を二項分類や二値分類、多数のクラスに分ける事を多クラス分類という。Y = f(X) というモデルを適用する際に、Y が離散であれば分類、連続値であれば回帰である。

個体をクラス分けする統計的手続きの一つであり、分類対象に固有な1つ以上の特性についての数値化された情報に基づいて実施される。このとき、事前にラベル付けされた訓練例(: training set)を用いる。

形式的に表すと、次のようになる。訓練データ から、オブジェクト から分類ラベル へマップする分類器(: classifier、識別器とも) を生成するのが統計分類である。例えば、スパムのフィルタリングをする場合、 は具体的な電子メールの例であり、 は "Spam" か "Non-Spam" のどちらかである。

統計的分類アルゴリズムは主にパターン認識システムなどで使われる。

注: 群集生態学で言う「分類; classification」という用語は、一般に(たとえば機械学習で)データ・クラスタリングと呼ばれているものと同じものを指す。詳しくは教師なし学習などを参照されたい。

技法

分類手法は多数存在するが、それらは3つの相互に関連する数学的問題のいずれかを解決する。

第一の問題は、特徴空間(一般に多次元のベクトル空間)からラベルの集合への写像を求める問題である。これは、特徴空間を領域分割して、各領域にラベルを割り当てるのと同じである。このようなアルゴリズム(例えばk近傍法)は事後処理を行わないとクラス確率を生成できないのが一般的である。この問題を解く別のアルゴリズムとしては、特徴空間への教師なし クラスタリングの適用をし、次いで各クラスターまたは領域にラベルを付ける。

第二の問題は、統計分類を一種の予測問題とみなし、以下のような形式の関数を予測することを目標とするものとみなす。

ここで、特徴ベクトル入力が であり、関数 f は一般に の一部によってパラメータ化される。この問題のベイズ推定的アプローチでは、唯一のパラメータベクトル を選ぶのではなく、考えられる全てのθの積分が結果となり、各θが訓練データ D によって与えられる確率で重み付けされる。

第二の問題とも関連するが、第三の問題は条件付き確率 を推測する問題であり、それに第二の問題のようにクラス確率を生成するためにベイズの定理を利用する。

主な統計分類アルゴリズム:

問題の性質(分類すべきデータ)と各種分類アルゴリズム(分類器)の性能の関係は、未だ解決されていない興味深い問題である。Van der Walt と Barnard(参考文献参照)は特定の人工的なデータ群を使って、どの分類器がよい性能を示すかを研究した。

分類器の性能は分類すべきデータの特性に大きく依存する。あらゆる問題について最高の性能を示す分類器は存在しない(ノーフリーランチ定理と同様の現象である)。分類器の性能を比較し、データの特性を特定するために各種実験的検証を実施して分類器の性能を決定する。ただし、ある問題に適した分類器を特定する手法は科学というよりも技能である。

評価手法

判別式の妥当性は、誤判別率などで評価できる。適した変数選択と判別方法にもとづいて分析することが必要であり、判別式(のみならず変数選択)の妥当性を検証する手法として、元のデータから1つだけ外して判別(モデル)式を得、外したデータを新たなデータとして適用した際に妥当な結果が得られるかを検証する、1つとって置き法(: leave-1-out)などが一般に用いられる。

入試を具体例に取ると、個々の受験生は、各群に属する個々の入試得点により、合格・不合格という2群に分けられる。学校側で明確な基準を設ける場合、たとえば英語で100点満点中70点を合否ラインにした場合、生徒の合否は得点が70点を境に分かれることとなるが、合否基準が非公開な場合や、その年度によって、合格者の平均点も変動することは周知である。

このような教師データが存在する場合(予備校などでは自己採点結果などから、相当に精度の高い標本を有しており、これを教師データとして扱うことは相応に妥当と考えられる)、統計分類により、過去の受験生の点数実績と合格実績から、合否の基準を計算によって求めることができる。

応用分野

参考文献

  • C.M. van der Walt and E. Barnard,“Data characteristics that determine classifier performance”, in Proceedings of the Sixteenth Annual Symposium of the Pattern Recognition Association of South Africa, pp.160-165, 2006.

関連項目

外部リンク


「分類 (統計学)」の例文・使い方・用例・文例

Weblio日本語例文用例辞書はプログラムで機械的に例文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「分類_(統計学)」の関連用語

分類_(統計学)のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



分類_(統計学)のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの分類 (統計学) (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います:
 Creative Commons Attribution (CC-BY) 2.0 France.
この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
浜島書店 Catch a Wave
Copyright © 1995-2025 Hamajima Shoten, Publishers. All rights reserved.
株式会社ベネッセコーポレーション株式会社ベネッセコーポレーション
Copyright © Benesse Holdings, Inc. All rights reserved.
研究社研究社
Copyright (c) 1995-2025 Kenkyusha Co., Ltd. All rights reserved.
日本語WordNet日本語WordNet
日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved.
WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
日外アソシエーツ株式会社日外アソシエーツ株式会社
Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved.
「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
EDRDGEDRDG
This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

©2025 GRAS Group, Inc.RSS