本文為您介紹如何使用Catalog將StarRocks的離線資料移轉到ApsaraDB for SelectDB。
前提條件
樣本環境
本樣本為將StarRocks的資料庫starRocks_db中表SR_t的資料移轉到SelectDB 資料庫test_db中表test_SR2SelectDB中。在實際使用中,請根據您的實際情況修改對應參數。樣本環境如下:
目標庫:test_db
目標表:test_SR2SelectDB
來源資料庫:starRocks_db
來源資料表:SR_t
來源資料準備樣本
登入您的來源資料StarRocks,進行以下操作。
建立資料庫。
CREATE DATABASE starRocks_db;
建立表。
CREATE TABLE SR_t ( id int, name string, age int ) DISTRIBUTED BY HASH(id) BUCKETS 4 PROPERTIES("replication_num" = "1");
插入資料。
INSERT INTO SR_t VALUES (1, 'Alice', 25), (2, 'Bob', 30), (3, 'Charlie', 35), (4, 'David', 40), (5, 'Eve', 45);
操作步驟
串連SelectDB執行個體。具體操作,請參見串連執行個體。
說明使用DMS登入時,
SWITCH
指令失效。推薦使用MySQL用戶端串連。建立StarRocks JDBC Catalog。更多操作,請參見JDBC資料來源。
CREATE CATALOG starrocks_catalog PROPERTIES ( "type"="jdbc", "user"="root", "password"="123456", "jdbc_url" = "jdbc:mysql://127.0.0.1:3306/demo", "driver_url" = "mysql-connector-java-8.0.25.jar", "driver_class" = "com.mysql.cj.jdbc.Driver", "checksum" = "fdf55dcef04b09f2eaf42b75e61ccc9a" )
參數說明
參數
必選
預設值
說明
user
是
無
StarRocks資料庫的帳號。
password
是
無
StarRocks資料庫的密碼。
jdbc_url
是
無
JDBC串連串。需要包含StarRocks資料庫的串連地址。
driver_url
是
無
JDBC Driver的Jar包名稱。
說明推薦使用
mysql-connector-java-8.0.25.jar
。若期望使用其他Jar包,支援工單諮詢。
driver_class
是
無
JDBC Driver的Class名稱。
推薦設定為
com.mysql.cj.jdbc.Driver
。lower_case_table_names
(4.0版本改名為lower_case_meta_names)
否
"false"
指定是否以小寫形式同步JDBC外部資料源的庫名和表名。
true:通過維護小寫名稱到遠程系統中實際名稱的映射,能夠查詢非小寫資料庫和表。此時,庫表列名都會被轉換為小寫。
false:不能查詢非小寫資料庫和表。
重要對於SelectDB 3.0版本。
當 FE 參數的
lower_case_table_names
設定為1
或2
時, Catalog 的lower_case_table_names
參數必須設定為true
。當 FE 參數的
lower_case_table_names
設定為0
,則 Catalog 的參數可以為true
或false
。
對於SelectDB 4.0版本。
當 FE 的
lower_case_table_names
參數為0
或2
時,庫名表名列名都不會被轉換。當 FE 的
lower_case_table_names
參數為1
時,表名會被轉換為小寫,庫名和列名不會被轉換。
only_specified_database
否
"false"
指定是否只同步指定的Database。
true:只同步JDBC URL中指定的資料來源的 Database。
false:同步JDBC URL中所有的Database。
include_database_list
否
""
當
only_specified_database=true
時,指定同步多個Database,以英文逗號分隔。Database名稱大小寫敏感。exclude_database_list
否
""
當
only_specified_database=true
時,指定不需要同步的多個Database,以英文逗號分隔。Database名稱大小寫敏感。meta_names_mapping
否
""
如果外部資料源存在名稱相同只有大小寫不同的情況,例如 DORIS 和 doris,Doris 由於歧義而在查詢 Catalog 時報錯,此時需要配置
meta_names_mapping
參數來解決衝突。具體操作,請參見小寫名稱同步。
重要此參數僅適用於SelectDB4.0版本。
查看Catalog。
SHOW CATALOGS; --查看CATALOG是否建立成功
查詢結果如下。
+--------------+--------------+----------+-----------+-------------------------+---------------------+------------------------+ | CatalogId | CatalogName | Type | IsCurrent | CreateTime | LastUpdateTime | Comment | +--------------+--------------+----------+-----------+-------------------------+---------------------+------------------------+ | 436009309195 | SR_catalog | jdbc | | 2024-08-06 17:09:08.058 | 2024-07-19 18:04:37 | | | 0 | internal | internal | yes | UNRECORDED | NULL | Doris internal catalog | +--------------+--------------+----------+-----------+-------------------------+---------------------+------------------------+
(可選)切換至External Catalog SR_catalog目錄下。
您可以像使用Internal Catalog一樣,對External Catalog SR_catalog的資料進行查看和訪問。
說明目前,雲資料庫 SelectDB 版對External Catalog中的資料只支援讀操作。
SWITCH SR_catalog;
(可選)切換內部的catalog internal目錄下。
如果您沒有執行第4步,跳過此步驟。
SWITCH internal;
(可選)建立資料。
如果您已經建立了目標資料庫,可跳過此步驟。
CREATE database test_db;
切換至目標資料庫。
USE test_db;
建立表。
如果您已經有了目標表,請檢查目標列類型與StarRocks來源資料列類型是否一一對應。
如果您還沒有目標表,建立表時,目標列類型需與StarRocks來源資料列類型一一對應。
列映射詳情,請參見類型映射。
CREATE TABLE test_SR2SelectDB ( id int, name string, age int ) DISTRIBUTED BY HASH(id) BUCKETS 4 PROPERTIES("replication_num" = "1");
遷移資料。
INSERT INTO test_SR2SelectDB SELECT * FROM doris_catalog.SR_db.SR_t;
查看資料匯入情況。
SELECT * FROM test_SR2SelectDB;
遷移增量資料
實際生產環境中,StarRocks資料主要分為離線資料和增量資料。由於StarRocks資料移轉到SelectDB,通常的使用情境是拷貝一份資料到資料倉儲進行查詢加速,因此對於增量資料的遷移,可以考慮以下兩種方式:
在生產SelectDB資料時並行寫入一份資料到SelectDB。
通過周期性作業讀取StarRocks中的分區資料寫入SelectDB。