data lakeとは？わかりやすく解説

データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ（列と行）や、半構造化データ（CSV、ログ、XML、JSON）、非構造化データ（Eメール、ドキュメント、PDF）、バイナリデータ（画像、音声、映像）を含めることができる。

適切に管理されておらず、ユーザが意図するデータへのアクセシビリティが低く、小さな価値しか提供できない低品質のデータレイクはデータの沼と表現される^[1]。

データレイクは、データウェアハウスで典型的な schema-on-write と対比して、分析時にスキーマを適用する schema-on-read（late binding）の考え方と結び付けて説明されることが多い^[2]^[3]。そのため、取り込み段階では生データを保持しつつ、後段で探索・分析できるようにするためのメタデータ抽出とメタデータモデル化が重要な機能となる^[2]^[3]。

近年の研究では、データレイクの成否は単なる大容量保管ではなく、メタデータカタログ、データ品質の担保、データガバナンス、利用者ごとのアクセス制御、データの論理的・物理的な整理などをどこまで備えるかに左右されると整理されている^[4]^[2]。これらが不十分な場合、データレイクは構造や意味が把握しにくく再利用しにくい「データの沼」に陥りやすいとされる^[3]^[4]。

背景

Pentaho のCTOであるJames Dixonが、データマートと対比してこの概念を提唱したと主張している^[5]。彼はデータマートにおけるデータのサイロ化などの問題点を指摘し、データレイクの必要性を説いている。PWCコンサルティングは"データレイクはデータのサイロ化の対策となりえる"と発言している^[6]。

脚注

出典

^ Olavsrud, Thor. “3 keys to keep your data lake from becoming a data swamp” (英語). CIO 2017年7月5日閲覧。
^ ^a ^b ^c Hai, Rihan; Koutras, Christos; Quix, Christoph; Jarke, Matthias (2023). “Data Lakes: A Survey of Functions and Systems”. IEEE Transactions on Knowledge and Data Engineering 35 (12): 12571-12590. doi:10.1109/TKDE.2023.3270101.
^ ^a ^b ^c Sawadogo, Pegdwendé; Scholly, Étienne; Favre, Cécile; Ferey, Éric; Loudcher, Sabine; Darmont, Jérôme (2019). Metadata Systems for Data Lakes: Models and Features. Springer. doi:10.1007/978-3-030-30278-8_43
^ ^a ^b Sawadogo, Pegdwendé; Darmont, Jérôme (2021). “On data lake architectures and metadata management”. Journal of Intelligent Information Systems 56 (1): 97-120. doi:10.1007/s10844-020-00608-7.
^ Woods, Dan (2011年7月21日). “Big data requires a big architecture”. Forbes
^ Stein, Brian; Morrison, Alan (2014). Data lakes and the promise of unsiloed data (pdf) (Report). Technology Forecast: Rethinking integration. PricewaterhouseCooper.

data lakeとは？わかりやすく解説

データ‐レーク【data lake】

データレイク

背景

脚注

出典

関連項目

英和和英テキスト翻訳

「data lake」の関連用語


	(C)Shogakukan Inc. 株式会社小学館
	All text is available under the terms of the GNU Free Documentation License. この記事は、ウィキペディアのデータレイク (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

data lakeとは？ わかりやすく解説

データ‐レーク【data lake】

データレイク

背景

脚注

出典

関連項目

英和和英テキスト翻訳

「data lake」の関連用語

data lakeとは？わかりやすく解説