全部產品
Search
文件中心

:Impala以EMR叢集的方式查詢OSS-HDFS服務中的資料

更新時間:Jun 19, 2024

本文介紹Impala如何以EMR叢集的方式查詢OSS-HDFS服務中的資料。

前提條件

操作步驟

  1. 登入EMR叢集。

    1. 登入EMR on ECS控制台

    2. 單擊建立的EMR叢集。

    3. 單擊節點管理頁簽,然後單擊節點群組左側的+

    4. 單擊ECS ID。在ECS執行個體頁面,單擊執行個體ID右側的遠端連線

    如果您希望使用SSH方式(SSH金鑰組或SSH密碼)在Windows和Linux環境中登入叢集,請參見登入叢集

  2. 使用Impala查詢OSS-HDFS服務中的資料。
    1. 建立表。
      CREATE EXTERNAL TABLE customer_demographics (
       `cd_demo_sk` INT,
       `cd_gender` STRING,
       `cd_marital_status` STRING,
       `cd_education_status` STRING,
       `cd_purchase_estimate` INT,
       `cd_credit_rating` STRING,
       `cd_dep_count` INT,
       `cd_dep_employed_count` INT,
       `cd_dep_college_count` INT)
      STORED AS PARQUET
      LOCATION 'oss://bucket.endpoint/dir';
    2. 查詢表資料。
      select * from customer_demographics;