全部產品
Search
文件中心

:Spark以EMR叢集的方式處理OSS-HDFS服務中的資料

更新時間:Jun 19, 2024

本文介紹Spark如何以EMR叢集的方式處理OSS-HDFS服務中的資料。

前提條件

操作步驟

  1. 登入EMR叢集。

    1. 登入EMR on ECS控制台

    2. 單擊建立的EMR叢集。

    3. 單擊節點管理頁簽,然後單擊節點群組左側的+

    4. 單擊ECS ID。在ECS執行個體頁面,單擊執行個體ID右側的遠端連線

    如果您希望使用SSH方式(SSH金鑰組或SSH密碼)在Windows和Linux環境中登入叢集,請參見登入叢集

  2. 在終端執行以下命令啟動Spark Shell。

    spark-shell
  3. 使用Spark訪問OSS-HDFS。

    1. 建立表。

      spark.sql("CREATE TABLE test_oss (`c1` string) OPTIONS (PATH 'oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir')")
    2. 往表中插入資料。

      spark.sql("INSERT INTO TABLE test_oss SELECT 'testdata' AS c1")
    3. 查詢表。

      spark.sql("SELECT c1 FROM test_oss")