Spark SQL
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/11/24 07:50 UTC 版)
「Apache Spark」の記事における「Spark SQL」の解説
Spark Coreより上位のコンポーネントで、構造化データや半構造化データをサポートするDataFramesというデータ抽象化を導入した。Scala、Java、PythonのDataFramesを操作するためのドメイン固有言語(DSL)を提供しており、キャラクタユーザインタフェースとOpen Database Connectivity/JDBCサーバとのSQL言語サポートも実装している。DataFramesには、Spark 2.0のようにRDDによって提供されるコンパイル時型チェック機能はないが、強く型付けされたデータセットはSpark SQLでも完全にサポートされている。 import org.apache.spark.sql.SQLContextval url = "jdbc:mysql://yourIP:yourPort/test?user=yourUsername;password=yourPassword" // URL for your database server.val sqlContext = new org.apache.spark.sql.SQLContext(sc) // Create a sql context objectval df = sqlContext .read .format("jdbc") .option("url", url) .option("dbtable", "people") .load()df.printSchema() // Looks the schema of this DataFrame.val countsByAge = df.groupBy("age").count() // Counts people by age
※この「Spark SQL」の解説は、「Apache Spark」の解説の一部です。
「Spark SQL」を含む「Apache Spark」の記事については、「Apache Spark」の概要を参照ください。
- Spark SQLのページへのリンク