全部產品
Search
文件中心

AnalyticDB:Hive資料匯入

更新時間:Sep 25, 2024

AnalyticDB for MySQL支援通過Hive資料移轉將Hive資料移轉至OSS。本文介紹如何添加Hive資料來源,建立Hive遷移鏈路並啟動任務,以及資料移轉後如何進行資料分析和管理資料移轉任務。

功能介紹

AnalyticDB for MySQL支援建立Hive資料移轉任務,通過遷移任務將Hive中繼資料和資料一鍵遷移到OSS,或多庫多表並行遷移到OSS。

前提條件

  • AnalyticDB for MySQL叢集的產品系列為湖倉版

  • 已在AnalyticDB for MySQL叢集中建立Job型資源群組。具體操作,請參見建立資源群組

  • 已建立AnalyticDB for MySQL叢集的資料庫帳號。

  • AnalyticDB for MySQL叢集的相同地區,已建立阿里雲E-MapReduce叢集或ECS自建CDH叢集,具體要求如下:

  • E-MapReduce叢集。E-MapReduce叢集業務情境為新版資料湖,中繼資料類型為自建 RDS內建 MySQL,具有Hive服務,且Hive 儲存模式為HDFS(即去勾選資料湖儲存)。具體操作,請參見建立叢集

    重要
    • 中繼資料類型為DLF 統一中繼資料的E-MapReduce叢集,暫不支援遷移Hive資料至OSS。

    • Hive儲存模式為資料湖儲存的E-MapReduce叢集,資料存放區在OSS中,可以通過中繼資料發現功能將資料匯入AnalyticDB for MySQL。具體操作,請參見通過中繼資料發現匯入至湖倉版

  • ECS自建CDH叢集。

  • 已建立Hive庫表,且Hive表為分區表。具體操作,請參見Hive基礎操作

計費說明

通過AnalyticDB for MySQL資料移轉功能遷移資料至OSS會產生以下費用。

  • AnalyticDB for MySQL的ACU彈性資源費用,計費項目詳情,請參見湖倉版計費項目

  • OSS的儲存費用、GET類請求次數以及PUT類和其他請求次數的費用。計費項目詳情,請參見計費概述

使用流程

建立Hive資料來源

說明

如果已添加過Hive資料來源,可跳過此步驟,直接建立遷移鏈路,詳情請參見建立資料移轉任務

  1. 登入雲原生資料倉儲AnalyticDB MySQL控制台,在左上方選擇叢集所在地區。在左側導覽列,單擊集群清單,在湖倉版頁簽下,單擊目的地組群ID。

  2. 在左側導覽列,單擊資料接入>資料來源管理

  3. 單擊右上方新建數據源

  4. 新建數據源頁面進行參數配置。參數說明如下表所示:

    阿里雲執行個體

    參數名稱

    參數說明

    數據源類型

    選擇資料來源類型Hive

    數據源名稱

    系統預設會按資料來源類型與目前時間產生名稱,可按需修改。

    數據源描述

    資料來源備忘描述,例如湖倉應用情境、應用業務限制等。

    部署模式

    如果您使用的是E-MapReduce的Hive服務,請選擇阿里雲執行個體。

    實例

    選擇資料來源指向的E-MapReduce執行個體。

    Hive Metastore Uri

    訪問Hive MetaStore的串連地址。格式為thrift://<Master節點的IP地址>:<連接埠號碼>,連接埠號碼預設為9083。

    Master節點的IP地址查看方法:

    登入EMR on ECS控制台,在節點管理頁簽,單擊emr-master節點前的加號..png,查看Master節點的內網地址。

    ECS自建CDH

    參數名稱

    參數說明

    數據源類型

    選擇資料來源類型Hive

    數據源名稱

    系統預設會按資料來源類型與目前時間產生名稱,可按需修改。

    數據源描述

    資料來源備忘描述,例如湖倉應用情境、應用業務限制等。

    部署模式

    如果您是在ECS自建的CDH叢集,請選擇ECS自建CDH。

    實例

    選擇資料來源指向的ECS執行個體。

    Hive Metastore Uri

    訪問Hive MetaStore的串連地址,即CDH Master節點對應的ECS執行個體的公網IP。格式為thrift://<Master節點的IP地址>:<連接埠號碼>,連接埠號碼預設為9083。

    Host配置信息

    填寫Host與IP的映射關係。每組映射關係換行分隔。

    樣本:

    192.168.2.153 master.cdh

    192.168.2.154 node1.cdh

    192.168.2.155 node2.cdh

  5. 參數配置完成後,單擊創建

建立資料移轉任務

  1. 在左側導覽列,單擊數據遷移

  2. 在右上方,單擊新建遷移鏈路

  3. 新建遷移鏈路頁面,進行資料來源的數據源及目標端配置遷移庫表配置遷移配置

    資料來源及目標端配置參數說明

    參數名稱

    參數說明

    數據鏈路名稱

    資料鏈路名稱。系統預設按資料來源類型與目前時間產生名稱,可按需修改。

    資料來源

    選擇已有的Hive資料來源,也可建立資料來源。

    目標端類型

    目前僅支援資料湖-OSS儲存

    OSS路徑

    AnalyticDB for MySQL湖倉資料在OSS中的儲存路徑。

    重要
    • 展示的Bucket是與AnalyticDB for MySQL叢集同地區的所有Bucket,您可以任意選擇其中一個。請謹慎規劃儲存路徑,建立後不允許修改。

    • 建議選擇一個空目錄,且不能與其他任務的OSS路徑有相互首碼關係,防止資料覆蓋。例如,兩個資料同步任務的OSS路徑分別為oss://adb_demo/test/sls1/和oss://adb_demo/test/,OSS路徑有相互首碼關係,資料同步過程中會有資料覆蓋。

    遷移庫表配置參數說明

    重要

    若庫表名同時出現在白名單和黑名單中,則以黑名單優先,即不會遷移。

    參數名稱

    參數說明

    遷移庫表白名單

    填入庫表名Regex。與運算式匹配的庫表會被遷移,多個運算式之間以英文逗號(,)分隔。

    遷移庫表黑名單

    填入庫表名Regex。與運算式匹配的庫表不會被遷移,多個運算式之間以英文逗號(,)分隔。

    遷移配置參數說明

    參數名稱

    參數說明

    目標端已存在同名表文件的處理

    遷移時目標表已存在的處理邏輯:

    • 跳過該表(不遷移):只跳過該表,其他表仍繼續遷移。

    • 報錯攔截,暫停遷移:遷移任務暫停。同名表和其他庫表都不會繼續遷移。

    Job型資源組

    指定任務啟動並執行Job型資源群組。

    所需ACU數

    指定任務啟動並執行Job型資源群組ACU數。最小ACU數為4,最大ACU數為Job型資源群組可用計算最大資源數。建議多指定一些ACU數,可以提升資料移轉效能及任務穩定性。

    並行任務數

    預設並行任務數為1,並行任務數上限為8。

    調高該值後,會同時啟動多個遷移任務,每個任務遷移一張表。但是每個任務至少需要4 ACU,如果ACU數較少,則遷移任務將串列執行。

    高級配置

    進階配置可以讓您對同步任務進行個人化的配置。如需進行個人化配置,請聯絡支援人員。

  4. 上述參數配置完成後,單擊提交

啟動資料移轉任務

  1. 數據遷移頁面,選擇建立成功的資料移轉任務,在操作列單擊啟動

  2. 單擊右上方查詢,狀態變為正在啟動即資料同步任務啟動成功。

資料分析

遷移任務成功後,您也可以先通過中繼資料發現功能將OSS中的資料匯入至湖倉版,然後在Spark Jar開發中對匯入至湖倉版的資料進行分析。Spark開發的相關操作,請參見Spark開發編輯器Spark離線應用開發

    1. 在左側導覽列,單擊作業開發 > Spark Jar 開發

    2. 在預設範本中輸入樣本語句,並單擊運行

      -- Here is just an example of SparkSQL. Modify the content and run your spark program.
      
      conf spark.driver.resourceSpec=medium;
      conf spark.executor.instances=2;
      conf spark.executor.resourceSpec=medium;
      conf spark.app.name=Spark SQL Test;
      conf spark.adb.connectors=oss;
      
      -- Here are your sql statements
      show tables from lakehouse20220413156_adbTest;
    3. 可選:應用列表頁簽中,單擊操作列的日誌,查看Spark SQL啟動並執行日誌。

管理資料移轉任務

數據遷移頁面,您可以在操作列執行以下操作。

操作按鈕

說明

啟動

啟動資料移轉任務。

執行詳情

可查看鏈路詳細配置、遷移表數量及遷移詳情等指標。

編輯

修改任務配置屬性等

暫停

停止當前遷移任務。

删除

刪除當前遷移任務。