本文由簡體中文內容自動轉碼而成。阿里雲不保證此自動轉碼的準確性、完整性及時效性。本文内容請以簡體中文版本為準。

Impala以EMR叢集的方式查詢OSS-HDFS服務中的資料

更新時間:2024-06-18 20:52

本文介紹Impala如何以EMR叢集的方式查詢OSS-HDFS服務中的資料。

前提條件

操作步驟

  1. 登入EMR叢集。

    1. 登入EMR on ECS控制台

    2. 單擊建立的EMR叢集。

    3. 單擊節點管理頁簽,然後單擊節點群組左側的+

    4. 單擊ECS ID。在ECS執行個體頁面,單擊執行個體ID右側的遠端連線

    如果您希望使用SSH方式(SSH金鑰組或SSH密碼)在Windows和Linux環境中登入叢集,請參見登入叢集

  2. 使用Impala查詢OSS-HDFS服務中的資料。
    1. 建立表。
      CREATE EXTERNAL TABLE customer_demographics (
       `cd_demo_sk` INT,
       `cd_gender` STRING,
       `cd_marital_status` STRING,
       `cd_education_status` STRING,
       `cd_purchase_estimate` INT,
       `cd_credit_rating` STRING,
       `cd_dep_count` INT,
       `cd_dep_employed_count` INT,
       `cd_dep_college_count` INT)
      STORED AS PARQUET
      LOCATION 'oss://bucket.endpoint/dir';
    2. 查詢表資料。
      select * from customer_demographics;

  • 本頁導讀 (1, M)
  • 前提條件
  • 操作步驟
文檔反饋
phone 聯絡我們