データマイニング
データマイニング
データマイニング
データ・マイニング data mining
データマイニング
データマイニングとは、データベースに蓄積されている大量のデータから、統計や決定木などを駆使して、マーケティングに必要な傾向やパターンなどの隠された規則性、関係性、仮説を導き出す手法のことである。マイニング(mining)とは「採鉱」を意味するもので、いわば眠っている金脈を探り当てることになぞらえられている。
一見無秩序・無関係に見えるデータの山も、着眼点次第では各事項の間に有益な連関が見えてくることが少なくない。例えば、ある商店ではサングラスを買う人の多くが一緒にガムを買っているという事実が見つかるかも知れない。あるいは他の店舗では、曇りがちの日には生魚の売り上げが伸びているかもしれない。こうした連関を実績として見出すことによって、サングラスの陳列棚の近くにガムを配置する、とか、雲の多い日に鮮魚のセールを実施するとか、効果的なマーケティングを行うことができる。
データマイニングは、データベースの発展を中心とした情報技術の向上によって盛んに行われるようになった手法であるといえる。元となるデータが多ければ多いほど、処理作業は膨大なものになるが、実証性は高くなる。既存データを専用のデータベースに取り込んで意思決定に活用するシステムはデータウェアハウスと呼ばれるが、データウェアハウスは一個のデータマイニングツールであるといえる。
マーケティング: | ソーシャルコマース ステップメール ステルスマーケティング データマイニング 電子クーポン ティーザーサイト データベースマーケティング |
データマイニング
【英】:data mining
概要
データベースに蓄えられた多量のデータから, 機械学習(machine learning)や統計的手法(statistical method)を用いて データの中に含まれる知識を発掘する手法をいう. 知識発見プロセスとしての, データ獲得,選択,前処理,変換,知識発見アルゴリズムの適用,解釈,評価といった 一連のサイクルを指す. 獲得した知識に基づく意思決定が目的であり, データ収集,発掘,評価といった人間と計算機の共同作業を伴う知識マネジメントとして捉えられる.
詳説
データマイニング (data mining)は, データベース (data base) [5] に蓄えられた大量の生データに対して, 機械学習 (machine learning)に関連する複数の手順を用いる戦略により, データに内在する規則性 (regularity), 制約 (constraint), ルール (rule)などを効率よく求める研究である. なお, データベースからの知識発見 (KDD: knowledge discovery in databases)とも呼ばれ, 知識発見 (knowledge discovery)に関わる多数の学習アルゴリズムが, 人工知能だけでなくデータベースや統計学の側面を含めて研究されている. まず, ノイズや例外を含み疎な構造をもつことも多い生データを対象としたデー タマイニングに共通する知識発見の手順を(1)~(6)に簡単に示す [1].
【手順】
(1)対象となるデータに対する既知の性質(背景知識)を利用してデータ収集を行い, データベースやデータウェアハウス (data warehouse)に格納する. (2)データに対する選択操作を前処理として行う. この段階はデータクリーニングと呼ばれる. (3)実装を前提とする制約のもとでデータの次元低減などによる変形操作を行う. (4)データマイニングを行うアルゴリズムを実行する. (5)導出された記述の解釈, ならびに, 記述の妥当性の検証を後処理として行う. (6)最終的な記述が評価され, 知識となる.
手順(4)のアルゴリズムで求まる知識の表現法によって, データの統計的解析 (statistical analysis of data)とデータの論理的解析 (logical analysis of data)の二種類に大きく分類される.
データの論理的解析の一種である決定木 (decision tree)を図1に示す. なお, 決定木を求めるアルゴリズムとしてID3 [4] などが知られており, エントロピーやMDL(minimum description length)基準が記述を選択する際に用いられる.
| ||||||||||||||||||||||||||||||||||||||||||||||
図1: 決定木を用いた概念学習の一例 |
関係データベースの問合せ言語SQLのGroupBy操作の拡張として位置付けられる結合ルール (association rule)を求めるアルゴリズムの研究も数多い. 結合ルールを求めるために, 最小サポート(support)値と最小確信度(confidence)を定めるヒューリスティックな閾値が用いられる. なお, 最小閾値により多数のルール導出を制限するだけではなく, 新規性や興味深さの弱いルールを最大閾値で抑制することもある. また, 頻度の高い購買パターンを結合ルールが表すため, データベースマーケティング(database marketing)などをターゲットに, 計算機アーキテクチャを含めた効率良い実装が進んでいる.
その他, 多変量解析の手法を用いるクラスター分析 (cluster analysis)や, 因果関係を表現するベイズネットワーク (Baysian network)や, 論理的表現に対する帰納推論プログラミング(ILP: inductive logicprogramminge)などもアプローチの一つである. また, ルールの理解可能性を高める上で, ルールの視覚化 (visualization)も欠かせない.
なお, ラフ集合(rough sets), ファジー理論(fuzzy theory), ニューラルネットワーク(neural network), 遺伝アルゴリズム(genetic algorithm)などの研究とも密接に関係している.
ところで, データマイニングの対象となるデータは, 航空会社, 銀行, クレジットカード会社, 電話, 保険などでのトランザクションだけではなく, WWWデータや医療データなどの異なる性質をもつデータも含まれる [2]. 特に, 学習データの種類が限定される場合, 地理データに対しては空間データマイニング(spatial data mining), 文書データに対してはテキストマイニング(text mining)などと呼ぶ. また, データマイニングに関連したシフトウェア(siftware)と呼ばれるソフトウェアの開発も盛んである.
なお, 良質な知識を発見するには, 複数のアルゴリズムを適用するだけではなく, データの前処理・ルールの後処理が重要となる. したがって, 実用化に向けて, 例えば, 各種情報システムを効果的に運用することを考えたデータ収集戦略を決定しなければならない.
[1] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth and R. Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996.
[2] R. Michalski, I. Bratko and M. Kubat, Machine Learning and Data Mining, Methods and Applications, John Wiley & Sons Ltd., 1998.
[3] J. Pearl, Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference, Morgan-Kaufmann, 1988.
[4] J. R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers, Inc., 1993. 古川康一監訳, 『AIによるデータ解析』, トッパン, 1995.
[5] J. D. Ullman, Principles of Database and Knowledge-Base Systems, Vol.I, Vol.II, Computer Science Press, 1988.
システム分析・意思決定支援・特許: | データウェアハウス データベース データベース管理 データマイニング トレードオフ分析 ハードシステム思考 ブレーンストーミング |
近似・知能・感覚的手法: | ソフトコンピューティング タブー探索 デンプスター・シェファーの証拠理論 データマイニング ナップサック問題 ニューラルネットワーク ニューラルネットワークによる学習 |
データマイニング
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/07/16 01:12 UTC 版)
注釈
- ^ "IJCAI'89 Workshop on Knowledge Discovery in Databases"は、"Expert Database Systems, Scientific Discovery, Fuzzy Rules, Using Domain Knowledge, Learning from Relational (Structured) Data, Dealing with Text and other Complex Data, Discovery Tools, Better Presentation Methods, Integrated Systems, Privacy"の9分野の研究成果が発表された大規模なワークショップである。
- ^ この当時のIoTは、様々な物体にRFIDタグを貼り付け、RFIDに対応したセンサーを用いて物体からの情報収集を行い、収集した情報を活用することを指していた。
- ^ 後にコグニティブ・コンピューティング・システムとして初の商用の実用化を達成する。
出典
- ^ W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, pp. 213-228.
- ^ D. Hand, H. Mannila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. ISBN 0-262-08290-X (各データマイニング手法の理論背景などが中心)
- ^ Hiura, Satoko; Koseki, Shige; Koyama, Kento (2021-12). “Prediction of population behavior of Listeria monocytogenes in food using machine learning and a microbial growth and survival database” (英語). Scientific Reports 11 (1): 10613. doi:10.1038/s41598-021-90164-z. ISSN 2045-2322. PMC 8134468. PMID 34012066 .
- 1 データマイニングとは
- 2 データマイニングの概要
- 3 定義
- 4 ソフトウェア
- 5 脚注
- 6 外部リンク
データマイニング
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/08/07 03:58 UTC 版)
「ナレッジマネジメント」の記事における「データマイニング」の解説
データマイニング(data mining)とは、人工知能や統計学を利用してデータから知識を取り出そうとする試み。主に共起現象を探り、セールスに結びつけようとしている。 例1:スーパーでビデオとガムが共に売れる → 両者を同じ場所に置く。 例2:本Aを買う人は、後に本Bを買うことが多い → 購入者に本Bを薦めるダイレクトメールを送る。 従来の統計学と大差ないが、POSやオンラインショッピングによる大量のITデータの中から法則性を見つけ出すことに主眼が置かれている。
※この「データマイニング」の解説は、「ナレッジマネジメント」の解説の一部です。
「データマイニング」を含む「ナレッジマネジメント」の記事については、「ナレッジマネジメント」の概要を参照ください。
データマイニング
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/16 00:18 UTC 版)
「Facebookへの批判」の記事における「データマイニング」の解説
「en:Facebook–Cambridge Analytica data scandal」も参照 調査およびデータマイニングの手段として、Facebookの利用に関して懸念の声が上がっている。Facebookのプライバシーポリシーにはかつてこう記されていた。「当社では他の情報源から利用者に関する情報を収集する可能性があります。例えば、新聞、ブログ、インスタント・メッセージング、他利用者のFacebookの情報等などのインターネット情報源を含むがそれだけに限りません」 しかしながらプライバシーポリシーは現在では更新されてこうなっている。「弊社は、他のFacebook利用者から収集した情報を使用して、利用者のプロフィールを補足することがあります(写真でタグ付けされた場合や、近況アップデートで取り上げられた場合など)。その場合は通常、そのコンテンツを削除できるか(写真のタグを削除するなど)、プロフィールの公開範囲を制限できるようになっています。 新聞、ブログ、インスタントメッセージングサービスなどの他の情報源を利用して情報収集する項は、削除された。 Facebookと無関係な個人によるデータ・マイニングは懸念されていた。それは2人の マサチューセッツ工科大学学生が自動化スクリプトを利用して、7万名のFacebookのプロフィールを4つの学校(マサチューセッツ工科大学、ニューヨーク州立大学、オクラホマ大学、ハーバード大学)からダウンロードすることができたことで証明された。これは、Facebookのプライバシーの研究プロジェクトの一部として 2005年12月4日に発表された。 その後、Facebookは利用者のセキュリティを強化しこう答えた。「弊社はフィッシングやマルウェアに対する多くの防御策を講じた。(短時間に多くの短いメッセージ、悪いと知られているリンクを含むメッセージを送出する異常な活動に基づき)認証が破られたと考えられるアカウントを検出する、背後で動く複雑な自動的なシステムが含まれる。」 「弊社は提携する責任ある企業を含む、第三者と情報を共有する可能性があります」という2番目の項は、Facebookが利用者のデータを私企業に売ることを許すとして、利用者からの非難を浴びた。この懸念について、広報担当者クリス・ヒューズは「簡単に言えば、弊社はサードパーティ企業に利用者の情報を提供したこともないし、将来する予定もない」と述べた。 Facebookは最終的には、プライバシーポリシーからこの項を削除した。 以前は、サードパーティ製のアプリケーションは、ほぼすべての利用者情報へアクセスできていた。Facebookのプライバシーポリシーは、以前このように述べていた。「Facebookはプラットフォームの開発を選別・承認しないし、プラットフォームの開発者が個人情報をどのように使用するかをコントロールできない。」 しかし、その文言はその後削除された。サードパーティ製のアプリケーションについては、プライバシーポリシーの「事前に承認されたサードパーティのウェブサイトおよびアプリケーション 」節で現在述べられている。 「 弊社は、フェイスブックで有益なソーシャル体験をお届けするために、事前に承認された外部プラットフォームアプリケーション及びウェブサイトを利用した利用者の一般情報を提供することがあります(フェイスブックにログインしている場合)。同様に、友達が事前承認済みのウェブサイトやアプリケーションを利用する場合も、友達とそのウェブサイトやアプリケーションでつながりになることができるよう、利用者の一般情報を提供することがあります(そのウェブサイトまたはアプリケーションでアカウントを持っている場合)。その場合、フェイスブックはこれらのウェブサイトとアプリケーションに対して、承認プロセスを実行し、利用者のプライバシー保護のための合意を別途締結することを要求します。この同意には、利用者の一般情報へのアクセスと削除に関する条項や、利用者が当該のサービスを利用しないよう選択できる機能が含まれます。事前承認済みのウェブサイトおよびアプリケーションでの即時パーソナライゼーションは、アプリケーションとウェブサイトのプライバシー設定で利用を停止することができます。また、特定の事前承認済みウェブサイトまたはアプリケーションにアクセスしたときに青色のバーの[キャンセル]をクリックすると、そのウェブサイトやアプリケーションをブロックすることができます。さらに、利用者が事前承認済みアプリケーションまたはウェブサイトにアクセスする前にフェイスブックからログアウトした場合、情報にアクセスすることはできません。 」 英国では労働組合会議 (TUC) は、注意深く先へ進むという条件で、従業員のFacebookや他のソーシャルネットワーキングサイトへのアクセスを許可した。 2007年9月からの数か月、FacebookはGoogleのような検索エンジンを含む非会員が、限定された「公開プロフィール」を検索することを可能にしたため、新たな一連の批判を浴びるようになった。しかし、Facebookのプライバシー設定において、利用者がプロフィールを検索エンジンからブロックすることができる。 BBCの「ウォッチドッグ」 という番組で2007年10月Facebookが他人になりすますため、個人情報を収集するのに容易であることの懸念が示された。しかし、利用者がプライバシーコントロールをデフォルトにした場合友人以外に公開される情報は殆どない。友人以外の利用者に公開される情報は、利用者の氏名、性別、プロフィールの写真、ネットワーク、利用者IDである。 さらに2008年2月のニューヨーク・タイムズ誌の記事によると、Facebookは利用者がアカウントを削除する機能を持っていないことが明らかとなった。これにより、プライベートな利用者のデータがFacebook・サーバーに無期限に放置されるという懸念が高まった。 しかし、Facebookは現在、Facebookのプライバシーポリシーに従い、利用者が自分のアカウントを無効化または削除する選択肢を提供している。「利用者がアカウントを無効にすると、見ることはできなくなりますが、削除はされません。利用者が後でアカウントを再開する場合に備え、弊社は、利用者のプロフィール情報(コネクション、写真など)を保存します」。「アカウントを削除すると、それは永久にFacebookから削除されます」。 サードパーティのサイト「ユーソーシャル」 はファンや友人を売ることで物議をかもしていた。ユーソーシャル排除の手紙をFacebookから受け取り友人を売ることを止めた。
※この「データマイニング」の解説は、「Facebookへの批判」の解説の一部です。
「データマイニング」を含む「Facebookへの批判」の記事については、「Facebookへの批判」の概要を参照ください。
固有名詞の分類
- データ・マイニングのページへのリンク