本文介紹Impala如何以EMR叢集的方式查詢OSS-HDFS服務中的資料。
前提條件
已建立EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的叢集。具體步驟,請參見建立叢集。
已開通並授權訪問OSS-HDFS服務。具體操作,請參見開通並授權訪問OSS-HDFS服務。
操作步驟
登入EMR叢集。
單擊建立的EMR叢集。
單擊節點管理頁簽,然後單擊節點群組左側的。
單擊ECS ID。在ECS執行個體頁面,單擊執行個體ID右側的遠端連線。
如果您希望使用SSH方式(SSH金鑰組或SSH密碼)在Windows和Linux環境中登入叢集,請參見登入叢集。
- 使用Impala查詢OSS-HDFS服務中的資料。
- 建立表。
CREATE EXTERNAL TABLE customer_demographics ( `cd_demo_sk` INT, `cd_gender` STRING, `cd_marital_status` STRING, `cd_education_status` STRING, `cd_purchase_estimate` INT, `cd_credit_rating` STRING, `cd_dep_count` INT, `cd_dep_employed_count` INT, `cd_dep_college_count` INT) STORED AS PARQUET LOCATION 'oss://bucket.endpoint/dir';
- 查詢表資料。
select * from customer_demographics;
- 建立表。