BigQuery資料來源為您提供讀取BigQuery的功能,方便您後續可以通過嚮導模式和指令碼模式配置資料同步任務。本文為您介紹DataWorks的BigQuery資料同步能力支援情況。
支援的版本及地區
BigQuery使用的SDK版本是
google-cloud-bigquery 2.29.0
,SDK能力具體請參見官網文檔。支援建立BigQuery資料來源的地區如下:
中國香港、日本(東京)、新加坡、馬來西亞(吉隆坡)、印尼(雅加達)、德國(法蘭克福)、英國(倫敦)、美國(矽谷)、美國(維吉尼亞)
支援的欄位類型
BigQuery的欄位類型請參見BigQuery的官方文檔。下面為您列出當前主要欄位的支援情況。
BigQuery類型 | Java 類型 |
BOOL | Bool |
INT64 | Long |
FLOAT64 | BigDecimal |
NUMERIC | BigDecimal |
BIGNUMERIC | BigDecimal |
STRING | String |
BYTES | Bytes |
STRUCT | String |
ARRAY | String |
TIMESTAMP | Date |
DATE | Date |
TIME | Date |
DATETIME | Date |
GEOGRAPHY | String |
JSON | String |
INTERVAL | String |
資料同步前準備
在DataWorks上進行資料同步前,您需要將資料來源的網路與Data Integration使用的Serverless資源群組(推薦)或獨享Data Integration資源群組打通,使之通過內網地址進行訪問。網路打通的具體方法可參考:網路連通方案。
建立資料來源
在進行資料同步任務開發時,您需要在DataWorks上建立一個對應的資料來源,操作流程請參見建立並管理資料來源,詳細的配置參數解釋可在配置介面查看對應參數的文案提示。
以下對BigQuery資料來源的幾個配置項進行說明:
BigQuery Project ID:Google BigQuery的專案名。
BigQuery授權認證資訊:上傳Google Cloud的認證檔案。
資料同步任務開發
資料同步任務的配置入口和通用配置流程可參見下文的配置指導。
單表離線同步任務配置指導
操作流程請參見通過嚮導模式配置離線同步任務、通過指令碼模式配置離線同步任務。
指令碼模式配置的全量參數和指令碼Demo請參見下文的附錄:指令碼Demo與參數說明。
附錄:指令碼Demo與參數說明
離線任務指令碼配置方式
如果您配置離線任務時使用指令碼模式的方式進行配置,您需要按照統一的指令碼格式要求,在任務指令碼中編寫相應的參數,詳情請參見通過指令碼模式配置離線同步任務,以下為您介紹指令碼模式下資料來源的參數配置詳情。