全部產品

Object Storage Service：Spark以EMR叢集的方式處理OSS-HDFS服務中的資料

更新時間：Jun 19, 2024

本文介紹Spark如何以EMR叢集的方式處理OSS-HDFS服務中的資料。

前提條件

已建立EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的叢集。具體步驟，請參見建立叢集。
已開通並授權訪問OSS-HDFS服務。具體操作，請參見開通並授權訪問OSS-HDFS服務。

操作步驟

登入EMR叢集。
1. 登入EMR on ECS控制台。
2. 單擊建立的EMR叢集。
3. 單擊節點管理頁簽，然後單擊節點群組左側的。
4. 單擊ECS ID。在ECS執行個體頁面，單擊執行個體ID右側的遠端連線。
如果您希望使用SSH方式（SSH金鑰組或SSH密碼）在Windows和Linux環境中登入叢集，請參見登入叢集。
在終端執行以下命令啟動Spark Shell。
```
spark-shell
```

使用Spark訪問OSS-HDFS。

建立表。

spark.sql("CREATE TABLE test_oss (`c1` string) OPTIONS (PATH 'oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir')")

往表中插入資料。

spark.sql("INSERT INTO TABLE test_oss SELECT 'testdata' AS c1")

查詢表。
```
spark.sql("SELECT c1 FROM test_oss")
```