全部產品
Search
文件中心

ApsaraDB for SelectDB:遷移StarRocks資料

更新時間:Aug 14, 2024

本文為您介紹如何使用Catalog將StarRocks的離線資料移轉到ApsaraDB for SelectDB

前提條件

  • 已將StarRocks執行個體IP添加至SelectDB的白名單。具體操作,請參見設定白名單

  • 瞭解什麼是Catalog,以及Catalog的基本操作。更多詳情,請參見湖倉一體

樣本環境

本樣本為將StarRocks的資料庫starRocks_db中表SR_t的資料移轉到SelectDB 資料庫test_db中表test_SR2SelectDB中。在實際使用中,請根據您的實際情況修改對應參數。樣本環境如下:

  • 目標庫:test_db

  • 目標表:test_SR2SelectDB

  • 來源資料庫:starRocks_db

  • 來源資料表:SR_t

來源資料準備樣本

登入您的來源資料StarRocks,進行以下操作。

  1. 建立資料庫。

    CREATE DATABASE starRocks_db;
  2. 建立表。

    CREATE TABLE SR_t
    (
        id int,
        name string,
        age int
    )
    DISTRIBUTED BY HASH(id) BUCKETS 4
    PROPERTIES("replication_num" = "1");
  3. 插入資料。

    INSERT INTO SR_t VALUES
    (1, 'Alice', 25),
    (2, 'Bob', 30),
    (3, 'Charlie', 35),
    (4, 'David', 40),
    (5, 'Eve', 45);

操作步驟

  1. 串連SelectDB執行個體。具體操作,請參見串連執行個體

    說明

    使用DMS登入時,SWITCH指令失效。推薦使用MySQL用戶端串連。

  2. 建立StarRocks JDBC Catalog。更多操作,請參見JDBC資料來源

    CREATE CATALOG starrocks_catalog PROPERTIES (
        "type"="jdbc",
        "user"="root",
        "password"="123456",
        "jdbc_url" = "jdbc:mysql://127.0.0.1:3306/demo",
        "driver_url" = "mysql-connector-java-8.0.25.jar",
        "driver_class" = "com.mysql.cj.jdbc.Driver",
        "checksum" = "fdf55dcef04b09f2eaf42b75e61ccc9a"
    )

    參數說明

    參數

    必選

    預設值

    說明

    user

    StarRocks資料庫的帳號。

    password

    StarRocks資料庫的密碼。

    jdbc_url

    JDBC串連串。需要包含StarRocks資料庫的串連地址。

    driver_url

    JDBC Driver的Jar包名稱。

    說明
    • 推薦使用mysql-connector-java-8.0.25.jar

    • 若期望使用其他Jar包,支援工單諮詢。

    driver_class

    JDBC Driver的Class名稱。

    推薦設定為com.mysql.cj.jdbc.Driver

    lower_case_table_names

    (4.0版本改名為lower_case_meta_names)

    "false"

    指定是否以小寫形式同步JDBC外部資料源的庫名和表名。

    true:通過維護小寫名稱到遠程系統中實際名稱的映射,能夠查詢非小寫資料庫和表。此時,庫表列名都會被轉換為小寫。

    false:不能查詢非小寫資料庫和表。

    重要
    • 對於SelectDB 3.0版本。

      • 當 FE 參數的lower_case_table_names設定為12時, Catalog 的lower_case_table_names參數必須設定為true

      • 當 FE 參數的lower_case_table_names設定為0,則 Catalog 的參數可以為truefalse

    • 對於SelectDB 4.0版本。

      • 當 FE 的lower_case_table_names參數為02時,庫名表名列名都不會被轉換。

      • 當 FE 的lower_case_table_names參數為1時,表名會被轉換為小寫,庫名和列名不會被轉換。

    only_specified_database

    "false"

    指定是否只同步指定的Database。

    true:只同步JDBC URL中指定的資料來源的 Database。

    false:同步JDBC URL中所有的Database。

    include_database_list

    ""

    only_specified_database=true時,指定同步多個Database,以英文逗號分隔。Database名稱大小寫敏感。

    exclude_database_list

    ""

    only_specified_database=true時,指定不需要同步的多個Database,以英文逗號分隔。Database名稱大小寫敏感。

    meta_names_mapping

    ""

    如果外部資料源存在名稱相同只有大小寫不同的情況,例如 DORIS 和 doris,Doris 由於歧義而在查詢 Catalog 時報錯,此時需要配置meta_names_mapping參數來解決衝突。

    具體操作,請參見小寫名稱同步

    重要

    此參數僅適用於SelectDB4.0版本。

  3. 查看Catalog。

    SHOW CATALOGS; --查看CATALOG是否建立成功

    查詢結果如下。

    +--------------+--------------+----------+-----------+-------------------------+---------------------+------------------------+
    | CatalogId    | CatalogName  | Type     | IsCurrent | CreateTime              | LastUpdateTime      | Comment                |
    +--------------+--------------+----------+-----------+-------------------------+---------------------+------------------------+
    | 436009309195 | SR_catalog | jdbc      |           | 2024-08-06 17:09:08.058 | 2024-07-19 18:04:37 |                        |
    |            0 | internal     | internal | yes       | UNRECORDED              | NULL                | Doris internal catalog |
    +--------------+--------------+----------+-----------+-------------------------+---------------------+------------------------+
  4. 可選)切換至External Catalog SR_catalog目錄下。

    您可以像使用Internal Catalog一樣,對External Catalog SR_catalog的資料進行查看和訪問。

    說明

    目前,雲資料庫 SelectDB 版對External Catalog中的資料只支援讀操作。

    SWITCH SR_catalog;
  5. 可選)切換內部的catalog internal目錄下。

    如果您沒有執行第4步,跳過此步驟。

    SWITCH internal;
  6. 可選)建立資料。

    如果您已經建立了目標資料庫,可跳過此步驟。

    CREATE database test_db;
  7. 切換至目標資料庫。

    USE test_db;
  8. 建立表。

    如果您已經有了目標表,請檢查目標列類型與StarRocks來源資料列類型是否一一對應。

    如果您還沒有目標表,建立表時,目標列類型需與StarRocks來源資料列類型一一對應。

    列映射詳情,請參見類型映射

    CREATE TABLE test_SR2SelectDB
    (
        id int,
        name string,
        age int
    )
    DISTRIBUTED BY HASH(id) BUCKETS 4
    PROPERTIES("replication_num" = "1");
  9. 遷移資料。

    INSERT INTO test_SR2SelectDB SELECT *  FROM doris_catalog.SR_db.SR_t;
  10. 查看資料匯入情況。

    SELECT *  FROM test_SR2SelectDB;

遷移增量資料

實際生產環境中,StarRocks資料主要分為離線資料和增量資料。由於StarRocks資料移轉到SelectDB,通常的使用情境是拷貝一份資料到資料倉儲進行查詢加速,因此對於增量資料的遷移,可以考慮以下兩種方式:

  • 在生產SelectDB資料時並行寫入一份資料到SelectDB

  • 通過周期性作業讀取StarRocks中的分區資料寫入SelectDB