阿里雲開源巨量資料開發平台E-MapReduce(簡稱EMR)特定版本(EMR-3.46.2及以上版本或EMR-5.12.2及以上版本)叢集預設整合OSS-HDFS服務。本文介紹如何通過EMR叢集接入OSS-HDFS服務並完成常見操作。
如果您使用的是自建Hadoop叢集,請通過非EMR叢集的方式接入OSS-HDFS服務。具體操作,請參見非EMR叢集接入OSS-HDFS服務快速入門。
前提條件
已為Bucket開通並授權訪問OSS-HDFS服務。具體操作,請參見開通OSS-HDFS服務。
阿里雲帳號預設擁有通過EMR叢集的方式接入OSS-HDFS服務並執行常見操作的許可權。如果您希望通過RAM使用者接入OSS-HDFS服務,RAM使用者需要具備對應的許可權要求,詳情請參見授權RAM使用者通過EMR叢集接入OSS-HDFS服務。
操作步驟
登入EMR on ECS控制台,建立EMR叢集。
建立EMR叢集時,確保選擇的產品版本為EMR-3.46.2及以上版本或者EMR-5.12.2及以上版本,叢集儲存根路徑選擇已開通OSS-HDFS服務的Bucket,其他參數保留預設配置。具體步驟,請參見建立叢集。
登入EMR叢集。
單擊建立的EMR叢集。
單擊節點管理頁簽,然後單擊節點群組左側的。
單擊ECS ID。在ECS執行個體頁面,單擊執行個體ID右側的遠端連線,選擇預設(通過Workbench遠端連線)登入執行個體。
如果您希望使用SSH方式(SSH金鑰組或SSH密碼)在Windows和Linux環境中登入叢集,請參見登入叢集。
通過HDFS Shell命令完成OSS-HDFS服務常見操作。
上傳檔案
將本地根目錄下的examplefile.txt檔案上傳至examplebucket,樣本如下:
hdfs dfs -put examplefile.txt oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/
下載檔案
將examplebucket下的exampleobject.txt下載到本地根目錄檔案夾/tmp,樣本如下:
hdfs dfs -get oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/exampleobject.txt /tmp/
更多操作,請參見通過Hadoop Shell命令訪問