PySpark是Spark提供的Python API。您可以通過PySpark提供的DataFrame介面,完成各種計算邏輯。本文為您介紹PySpark的基礎操作。
操作步驟
通過SSH方式串連叢集,詳情請參見登入叢集。
執行以下命令,進入PySpark互動式環境。
pyspark更多命令列參數請執行
pyspark --help查看。初始化SparkSession。
from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate()建立DataFrame。
from datetime import datetime, date import pandas as pd from pyspark.sql import Row df = spark.createDataFrame([ (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)), (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)), (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0)) ],schema='a long, b double, c string, d date, e timestamp')DataFrame建立完成後,您就可以通過各種類型的transform運算元完成資料計算。
列印DataFrame和Schema。
df.show() df.printSchema()