Azure Blob Storage数据同步能力支持情况 - 大数据开发治理平台 DataWorks

Azure Blob Storage数据源为您提供读取文件的能力，您可以使用本数据源，获取Azure Blob Storage中存储的文件，解析并同步至任意目标数据源。本文为您介绍DataWorks的Azure Blob Storage数据同步的能力支持情况。

使用限制

Azure Blob Storage数据源，支持以下的数据类型。

数据类型	说明
STRING	文本类型。
LONG	整型。
BYTES	字节数组，将读取到的文本内容转为UTF-8编码的字节数组。
BOOL	布尔型。
DOUBLE	浮点型。
DATE	日期时间类型，支持以下日期时间格式： YYYY-MM-dd HH:mm:ss yyyy-MM-dd HH:mm:ss

创建数据源

在进行数据同步任务开发时，您需要在DataWorks上创建一个对应的数据源，操作流程请参见创建并管理数据源，详细的配置参数解释可在配置界面查看对应参数的文案提示。

数据同步任务开发

数据同步任务的配置入口和通用配置流程可参见下文的配置指导。

单表离线同步任务配置指导

操作流程请参见通过向导模式配置离线同步任务、通过脚本模式配置离线同步任务。
脚本模式配置的全量参数和脚本Demo，请参见下文附录：脚本Demo与参数说明。

附录：脚本Demo与参数说明

离线任务脚本配置方式

如果您配置离线任务时使用脚本模式的方式进行配置，您需要按照统一的脚本格式要求，在任务脚本中编写相应的参数，详情请参见通过脚本模式配置离线同步任务，以下为您介绍脚本模式下数据源的参数配置详情。

Reader脚本Demo

{
  "type": "job",
  "version": "2.0",
  "steps": [
    {
      "stepType": "azureblob",
      "parameter": {
        "datasource": "",
        "object": ["f/z/1.csv"],
        "fileFormat": "csv",
        "encoding": "utf8/gbk/...",
        "fieldDelimiter": ",",
        "useMultiCharDelimiter": true,
        "lineDelimiter": "\n",
        "skipHeader": true,
        "compress": "zip/gzip",
        "column": [
          {
            "index": 0,
            "type": "long"
          },
          {
            "index": 1,
            "type": "boolean"
          },
          {
            "index": 2,
            "type": "double"
          },
          {
            "index": 3,
            "type": "string"
          },
          {
            "index": 4,
            "type": "date"
          }
        ]
      },
      "name": "Reader",
      "category": "reader"
    },
    {
      "stepType": "stream",
      "parameter": {},
      "name": "Writer",
      "category": "writer"
    }
  ],
  "setting": {
    "errorLimit": {
      "record": "0"
    },
    "speed": {
      "concurrent": 1
    }
  },
  "order": {
    "hops": [
      {
        "from": "Reader",
        "to": "Writer"
      }
    ]
  }
}

Reader脚本参数

参数	描述	是否必选	默认值
datasource	数据源名称，脚本模式支持添加数据源，该配置项填写的内容必须和添加的数据源名称保持一致。	是	无
fileFormat	源头文件类型。支持`csv`、`text`、`parquet`、`orc`。	是	无
object	文件路径，当fileFormat取值为csv、text时使用。说明此参数支持``通配符，支持配置为数组。例如：您需要同步`a/b/1.csv`和`a/b/2.csv`两个文件，可以配置为`a/b/.csv`。	是 fileFormat取值为csv、text时必填。	无
path	文件路径，当fileFormat取值为parquet、orc时使用。说明此参数支持``通配符，支持配置为数组。例如：您需要同步`a/b/1.orc`和`a/b/2.orc`两个文件，可以配置为`a/b/.orc`。	是 fileFormat取值为parquet、orc时必填。	无
column	读取字段列表，type指定源数据的类型，index指定当前列来自于文本第几列（以0开始），value指定当前类型为常量，不是从源头文件读取数据，而是根据value值自动生成对应的列。默认情况下，您可以全部按照String类型读取数据，配置如下。 `column": ["*"]` 您可以指定column字段信息，配置如下。 `"column": { "type": "long", "index": 0 //从Azure Blob Storage文本第一列获取int字段。 }, { "type": "string", "value": "alibaba" //从Azure Blob Storage Reader内部生成alibaba的字符串字段作为当前字段。 }` 说明对于您指定的column信息，type必须填写，index和value必须选择其一。	是	全部按照STRING类型读取。
fieldDelimiter	读取的字段分隔符。说明 Azure Blob Storage Reader在读取数据时，需要指定字段分割符，如果不指定，默认为（,），界面配置中也会默认填写为（,）。如果分隔符不可见，请填写Unicode编码。例如：`\u001b`、`\u007c`。	是	,
lineDelimiter	读取的行分隔符。说明当fileFormat取值为text时，本参数有效。	否	无
compress	文本压缩类型，默认不填写（即不压缩）。支持压缩类型为`gzip`、`bzip2`和`zip`。	否	不压缩
encoding	读取文件的编码配置。	否	utf-8
nullFormat	文本文件中无法使用标准字符串定义null（空指针），数据同步系统提供nullFormat定义哪些字符串可以表示为null。例如：配置`nullFormat:"null"`，等同于“可见字符”，如果源头数据是null，则数据同步视作null字段。配置`nullFormat:"\u0001"`，等同于“不可见字符”，如果源头数据是字符串"\u0001"，则数据同步视作null字段。不写`"nullFormat"`这个参数，等同于“未配置”，代表来源是什么数据就直接按照什么数据写入目标端，不做任何转换。	否	无
skipHeader	CSV格式文件通过skipHeader配置是否读取表头内容。 True：同步数据源的时候读取表头内容。 False：同步数据源的时候不读取表头内容。说明压缩文件模式下不支持skipHeader。	否	false
parquetSchema	以Parquet文件格式读取Azure Blob Storage时配置，当且仅当fileFormat为parquet时生效，具体表示parquet存储的类型说明。您需要确保填写parquetSchema后，整体配置符合JSON语法。 `message MessageType名 { 是否必填, 数据类型, 列名; ......................; }` parquetSchema的配置格式说明如下： MessageType名：填写名称。是否必填：required表示非空，optional表示可为空。推荐全部填写optional。数据类型：Parquet文件支持BOOLEAN、Int32、Int64、Int96、FLOAT、DOUBLE、BINARY（如果是字符串类型，请填BINARY）和fixed_len_byte_array类型。每行列设置必须以分号结尾，最后一行也要写上分号。配置示例如下所示。 `"parquetSchema": "message m { optional int32 minute_id; optional int32 dsp_id; optional int32 adx_pid; optional int64 req; optional int64 res; optional int64 suc; optional int64 imp; optional double revenue; }"`	否	无
csvReaderConfig	读取CSV类型文件参数配置为Map类型。读取CSV类型文件使用的CsvReader进行读取，不配置则使用默认值。	否	无
maxRetryTimes	文件下载失败时的最大重试次数。说明配置0表示关闭该功能。高级模式，向导模式不支持此参数的配置。	否	0
retryIntervalSeconds	文件下载失败时重试间隔，单位秒。说明高级模式，向导模式不支持此参数的配置。	否	5