Hadoop Distributed File System (HDFS)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/11/26 20:35 UTC 版)
「Apache Hadoop」の記事における「Hadoop Distributed File System (HDFS)」の解説
「Google File System」も参照 Hadoop Distributed File System (HDFS)はHadoop独自の分散ファイルシステムである。HDFSでは大きなファイルを複数のブロック単位(デフォルトで128MB)に分割して、それらを複数のノードにまたがり格納する。そして、そのブロックの複製(レプリカ)を複数の異なるノードに格納することで信頼性を確保している。そのため、各ホストはRAIDを必要としない。レプリケーション数のデフォルトは3で、この場合、2つのデータを同じラック内のノードに、残り1つを異なるラック内のノードに保存する。 HDFSはマスタースレーブ型の構成で、マスターの役割を担当するのがNameNode、スレーブの役割を担当するのが複数のDataNodeである。NameNodeはHDFSに関するメタ情報(ファイルとブロックの対応関係など)を保持し、各DataNodeが実データをブロック単位で保持する。任意のDataNodeが故障した場合は、NameNodeが自動でそれを検知し、故障したDataNodeの保持ブロックを別のDataNodeが持つ同一な保持ブロックから参照するよう命令する。このようにしてDataNodeが故障した場合も自動的にレプリケーション数が維持されるため、DataNodeが故障してもサービスに影響は発生しない。 DataNodeは数1000台規模までスケールアウト可能で、その場合、数10PB規模のデータを格納することができる。 NameNodeは単一障害点であったが、Hadoop 2.2でHA機能が実装されたため単一障害点ではなくなった。また、通常のオペレーティングシステムにマウントできないことは制限のひとつであったが、Hadoop 2.2以降のバージョンではNFSv3マウントに対応している。
※この「Hadoop Distributed File System (HDFS)」の解説は、「Apache Hadoop」の解説の一部です。
「Hadoop Distributed File System (HDFS)」を含む「Apache Hadoop」の記事については、「Apache Hadoop」の概要を参照ください。
- Hadoop Distributed File Systemのページへのリンク