全部產品
Search
文件中心

DataWorks:RestAPI(HTTP形式)資料來源

更新時間:Oct 24, 2024

RestAPI資料來源為您提供讀取和寫入RestAPI雙向通道的功能,本文為您介紹DataWorks的RestAPI資料同步的能力支援情況。

使用限制

  • 目前該資料來源僅支援獨享Data Integration資源群組

  • 目前不支援設定逾時參數,當前DataWorks內建的請求逾時時間是60s, 如果您的API查詢返回時間超過60s將導致任務失敗。

支援的欄位類型

類型分類

Data Integrationcolumn配置類型

整數類

LONG,INT

字串類

STRING

浮點類

DOUBLE,FLOAT

布爾類

BOOLEAN

日期時間類

DATE

建立資料來源

在進行資料同步任務開發時,您需要在DataWorks上建立一個對應的資料來源,操作流程請參見建立並管理資料來源詳細的配置參數解釋可在配置介面查看對應參數的文案提示

資料同步任務開發

資料同步任務的配置入口和通用配置流程可參見下文的配置指導。

單表離線同步任務配置指導

常見問題

  1. 只能指定好請求資料的翻頁次數嗎?

    答:是的

  2. 是否支援自動翻頁,例如當請求參數後面沒資料時便停止翻頁。

    答:不支援, 否則無法進行split切分。

  3. 如果需要指定翻頁次數,但指定翻頁次數比實際頁數多,導致後面資料為空白,系統會如何處理?

    答:當後面頁數資料為空白時,相當於SQL查到空資料,系統將會繼續查詢下一條資料。

  4. 只支援解析一層JSON據嗎?

    答:是的,不會進行深入解析。

附錄:指令碼Demo與參數說明

離線任務指令碼配置方式

如果您配置離線任務時使用指令碼模式的方式進行配置,您需要按照統一的指令碼格式要求,在任務指令碼中編寫相應的參數,詳情請參見通過指令碼模式配置離線同步任務,以下為您介紹指令碼模式下資料來源的參數配置詳情。

Reader指令碼Demo

{
    "type":"job",
    "version":"2.0",
    "steps":[
        {
            "stepType":"restapi",
            "parameter":{
                "url":"http://127.0.0.1:5000/get_array5",
                "dataMode":"oneData",
                "responseType":"json",
                "column":[
                    {
                        "type":"long",
                        "name":"a.b"  //從a.b路徑中尋找資料
                    },
                    {
                        "type":"string",  //從a.c路徑中尋找資料
                        "name":"a.c"
                    }
                ],
                "dirtyData":"null",
                "method":"get",
                "defaultHeader":{
                    "X-Custom-Header":"test header"
                },
                "customHeader":{
                    "X-Custom-Header2":"test header2"
                },
                "parameters":"abc=1&def=1"
            },
            "name":"restapireader",
            "category":"reader"
        },
        {
            "stepType":"stream",
            "parameter":{

            },
            "name":"Writer",
            "category":"writer"
        }
    ],
    "setting":{
        "errorLimit":{
            "record":""
        },
        "speed":{
            "throttle":true,  //當throttle值為false時,mbps參數不生效,表示不限流;當throttle值為true時,表示限流。
            "concurrent":1,  //作業並發數。 
            "mbps":"12"//限流,此處1mbps = 1MB/s。
        }
    },
    "order":{
        "hops":[
            {
                "from":"Reader",
                "to":"Writer"
            }
        ]
    }
}

指令碼模式配置說明如下:

Restapi外掛程式發出http(s)請求後,會獲得請求響應body(body是一個json),dataPath用來配置從body中提取資料的json path路徑。舉2個樣本如下:


以介面返回資料body如下舉例,其中業務資料在DATA內,且介面一次返回了多行資料(DATA是一個數組):
{
    "HEADER": {
        "BUSID": "bid1",
        "RECID": "uuid",
        "SENDER": "dc",
        "RECEIVER": "pre",
        "DTSEND": "202201250000"
    },
    "DATA": [
        {
            "SERNR": "sernr1"
        },
        {
            "SERNR": "sernr2"
        }
    ]
}

如果需要將DATA中的多行資料幫浦為多條同步記錄,則需要將 column 配置為 "column": [ "SERNR" ],dataMode 配置為 "dataMode": "multiData",dataPath 配置為 "dataPath": "DATA"


以介面返回資料body如下舉例,其中業務資料在content.DATA內,且介面一次返回了1行資料(DATA是一個對象):
{
    "HEADER": {
        "BUSID": "bid1",
        "RECID": "uuid",
        "SENDER": "dc",
        "RECEIVER": "pre",
        "DTSEND": "202201250000"
    },
    "content": {
        "DATA": {
            "SERNR": "sernr2"
        }
    }
}

如果需要將content.DATA中的一行資料幫浦為一條同步記錄,則需要將 column 配置為 "column": [ "SERNR" ],dataMode 配置為 "dataMode": "oneData",dataPath 配置為 "dataPath": "content.DATA"
                

Reader指令碼參數

說明

以下的參數包含在添加資料來源和配置Data Integration任務節點的過程中。

當前外掛程式暫不支援使用調度參數。

參數

描述

是否必選

預設值

url

RESTful介面地址。

dataMode

RESTful請求返回的結果JSON資料的格式。

  • oneData:從返回的JSON中取其1條資料。

  • multiData:從返回的JSON中取一個JSON數組,傳遞多條資料給writer。

responseType

返回結果的資料格式,目前僅支援JSON格式。

JSON

column

讀取欄位列表,type指定來源資料的類型,name指定當前column資料擷取的JSON路徑。您可以指定column欄位資訊,配置如下。

"column":[{"type":"long","name":"a.b" //從a.b路徑中尋找資料},{"type":"string","name":"a.c"//從a.c路徑中尋找資料}]

對於您指定的column資訊,type和name必須填寫。

dataPath

從返回結果中查詢單個JSON對象或者JSON數組的路徑。

method

要求方法,支援get或post兩種方式。

customHeader

傳遞給RESTful介面的header資訊。

parameters

傳遞給RESTful介面的參數資訊。

  • get方法填入abc=1&def=1

  • post方法填入JSON型別參數。

dirtyData

當從指定的column json路徑中找不到資料時的處理方式。

  • dirty:當一條資料解析時遇到column找不時這條資料置為髒資料。

  • null:當一條資料解析時遇到column找不到時,這個column設定為null。

dirty

requestTimes

從RESTful地址中請求資料的次數。

  • single:只進行一次請求。

  • multiple:進行多次請求。

single

requestParam

若requestTimes設為multiple時,需要指定迴圈的參數,例如pageNumber,外掛程式會根據設定的startIndex、endIndex、step三個參數迴圈傳遞pageNumber參數給RESTful介面,進行多次請求。

startIndex

迴圈請求的起點,起點包含在迴圈請求之內。

endIndex

迴圈請求的終點,終點包含在迴圈請求之內。

step

迴圈請求的步長。

authType

驗證方法。包括:

  • Basic Auth:基礎驗證。

    如果資料來源API支援使用者名稱和密碼的方式進行驗證,您可選擇此種驗證方式,並在選擇完成後配置用於驗證的使用者名稱和密碼,後續Data Integration過程中對接資料來源時,通過Basic Auth協議傳遞給RESTful地址,完成驗證。

  • Token Auth:Token驗證。

    如果資料來源API支援Token的方式進行驗證,您可選擇此種驗證方式,並在選擇完成後配置用於驗證的固定Token值,後續Data Integration過程中對接資料來源時,通過傳入header中進行驗證,例如:{"Authorization":"Bearer TokenXXXXXX"}。

  • Aliyun API Signature:阿里雲API簽名驗證。

    如果資料來源為阿里雲產品,且此阿里雲產品的API支援通過AccessKey和AccessSecret的方式進行驗證,您可選擇此種種驗證方式,並在選擇完成後配置用於驗證的AccessKey和AccessSecret。

authUsername/authPassword

Basic Auth驗證的使用者名稱和密碼。

authToken

Token Auth驗證的token。

accessKey/accessSecret

Aliyun API簽名驗證的賬戶資訊。

Writer指令碼Demo

{
    "type":"job",
    "version":"2.0",
    "steps":[
        {
            "stepType":"stream",
            "parameter":{

            },
            "name":"Reader",
            "category":"reader"
        },
        {
            "stepType":"restapi",
            "parameter":{
                "url":"http://127.0.0.1:5000/writer1",
                "dataMode":"oneData",
                "responseType":"json",
                "column":[
                    {
                        "type":"long", //放置column資料到路徑a.b
                        "name":"a.b"
                    },
                    {
                        "type":"string", //放置column資料到路徑a.c
                        "name":"a.c"
                    }
                ],
                "method":"post",
                "defaultHeader":{
                    "X-Custom-Header":"test header"
                },
                "customHeader":{
                    "X-Custom-Header2":"test header2"
                },
                "parameters":"abc=1&def=1",
                "batchSize":256
            },
            "name":"restapiwriter",
            "category":"writer"
        }
    ],
    "setting":{
        "errorLimit":{
            "record":"0" //錯誤記錄數。
        },
        "speed":{
            "throttle":true,//當throttle值為false時,mbps參數不生效,表示不限流;當throttle值為true時,表示限流。
            "concurrent":1, //作業並發數。
            "mbps":"12"//限流,此處1mbps = 1MB/s。
        }
    },
    "order":{
        "hops":[
            {
                "from":"Reader",
                "to":"Writer"
            }
        ]
    }
}

Writer指令碼參數

參數

描述

是否必須

預設值

url

RESTful介面地址。

dataMode

RESTful請求傳遞的JSON資料的格式。

  • oneData:一次請求只傳遞一條資料,有幾條資料就進行幾次請求。

  • multiData:一次請求傳遞一批資料,根據reader端切分的task數確定請求次數。

column

產生JSON資料對應的欄位路徑列表,type指定來源資料的類型,name指定當前column資料放置的JSON路徑。您可以指定column欄位資訊,配置如下。

"column":[{"type":"long","name":"a.b" //放置column資料到路徑a.b},{"type":"string","name":"a.c"//放置column資料到路徑a.c}]

說明

對於您指定的column資訊,type和name必須填寫。

dataPath

資料結果放置的JSON對象的路徑。

method

要求方法,支援post和put。

customHeader

傳遞給RESTful介面的header資訊。

authType

驗證方法。

  • Basic Auth:基礎驗證。

    如果資料來源API支援使用者名稱和密碼的方式進行驗證,您可選擇此種驗證方式,並在選擇完成後配置用於驗證的使用者名稱和密碼,後續Data Integration過程中對接資料來源時,通過Basic Auth協議傳遞給RESTful地址,完成驗證。

  • Token Auth:Token驗證。

    如果資料來源API支援Token的方式進行驗證,您可選擇此種驗證方式,並在選擇完成後配置用於驗證的固定Token值,後續Data Integration過程中對接資料來源時,通過傳入header中進行驗證,例如:{"Authorization":"Bearer TokenXXXXXX"}。

  • Aliyun API Signature:阿里雲API簽名驗證。

    如果資料來源為阿里雲產品,且此阿里雲產品的API支援通過AccessKey和AccessSecret的方式進行驗證,您可選擇此種種驗證方式,並在選擇完成後配置用於驗證的AccessKey和AccessSecret。

authUsername/authPassword

Basic Auth驗證的使用者名稱密碼。

authToken

Token Auth驗證的token。

accessKey/accessSecret

Aliyun API簽名驗證的賬戶資訊。

batchSize

dataMode為multiData時,一次請求最大的資料條數。

512