データ‐レーク【data lake】
データレイク
(data lake から転送)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2026/03/18 07:17 UTC 版)
データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XML、JSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。
適切に管理されておらず、ユーザが意図するデータへのアクセシビリティが低く、小さな価値しか提供できない低品質のデータレイクはデータの沼と表現される[1]。
データレイクは、データウェアハウスで典型的な schema-on-write と対比して、分析時にスキーマを適用する schema-on-read(late binding)の考え方と結び付けて説明されることが多い[2][3]。そのため、取り込み段階では生データを保持しつつ、後段で探索・分析できるようにするためのメタデータ抽出とメタデータモデル化が重要な機能となる[2][3]。
近年の研究では、データレイクの成否は単なる大容量保管ではなく、メタデータカタログ、データ品質の担保、データガバナンス、利用者ごとのアクセス制御、データの論理的・物理的な整理などをどこまで備えるかに左右されると整理されている[4][2]。これらが不十分な場合、データレイクは構造や意味が把握しにくく再利用しにくい「データの沼」に陥りやすいとされる[3][4]。
背景
Pentaho のCTOであるJames Dixonが、データマートと対比してこの概念を提唱したと主張している[5]。彼はデータマートにおけるデータのサイロ化などの問題点を指摘し、データレイクの必要性を説いている。PWCコンサルティングは"データレイクはデータのサイロ化の対策となりえる"と発言している[6]。
脚注
出典
- ^ Olavsrud, Thor. “3 keys to keep your data lake from becoming a data swamp” (英語). CIO 2017年7月5日閲覧。
- ^ a b c Hai, Rihan; Koutras, Christos; Quix, Christoph; Jarke, Matthias (2023). “Data Lakes: A Survey of Functions and Systems”. IEEE Transactions on Knowledge and Data Engineering 35 (12): 12571-12590. doi:10.1109/TKDE.2023.3270101.
- ^ a b c Sawadogo, Pegdwendé; Scholly, Étienne; Favre, Cécile; Ferey, Éric; Loudcher, Sabine; Darmont, Jérôme (2019). Metadata Systems for Data Lakes: Models and Features. Springer. doi:10.1007/978-3-030-30278-8_43
- ^ a b Sawadogo, Pegdwendé; Darmont, Jérôme (2021). “On data lake architectures and metadata management”. Journal of Intelligent Information Systems 56 (1): 97-120. doi:10.1007/s10844-020-00608-7.
- ^ Woods, Dan (2011年7月21日). “Big data requires a big architecture”. Forbes
- ^ Stein, Brian; Morrison, Alan (2014). Data lakes and the promise of unsiloed data (pdf) (Report). Technology Forecast: Rethinking integration. PricewaterhouseCooper.
関連項目
- data lakeのページへのリンク