OSS数据源 - 云原生数据湖分析 DLA - 文档停止维护

企业的业务服务所产生的一些标准化表单、日志等数据文件，会被周期性的直接上传到OSS。但是这些存储在OSS的文件缺少元数据管理，导致难以分析和计算。元数据发现任务可以在单次运行中自动为OSS上面的数据文件创建和更新数据湖元数据（一张或多张表），具有自动探索文件数据字段及类型、自动映射目录和分区、自动感知新增列及分区、自动对文件进行分组建表的能力。

OSS数据源配置模式

OSS数据源配置支持数仓模式和自由模式，两种模式差异如下：


OSS数据源配置	使用场景	OSS路径格式要求	识别精度	性能
数仓模式	用户直接上传数据到OSS，并期望构建可分析与计算的标准数据仓库。	库/表/文件”或者“库/表/分区/.../分区/文件	高	高
自由模式	已存在OSS数据，但OSS的路径不清晰。期望通过元信息发现，构建可分析的库表分区。	无要求	一般	一般

数仓模式的OSS路径格式要求

OSS是一个开放的文件系统，为了高效的在OSS上面构建数据仓库，数据源路径格式需要有一定的规范性。OSS数据源数仓模式的元信息发现只支持库/表/文件或者库/表/分区/.../分区/文件的路径格式（根目录对应schema；第二级子目录对应Table，且子目录名需要映射到表名；第三级以上如果还有目录，就对应为分区）。

上述数仓模式的OSS数据源进行元信息发现后，在DLA中自动映射的表如下所述：


OSS数据源目录名称	DLA中自动映射的表名称	映射说明
Table1	不创建表	Table1目录下的文件类型为csv和json，不一致，故而不能进行映射创建表。同一目录下的文件类型必须一致才能进行映射。说明如果文件类型相同，但是文件里面的字段不是同一种类型也不能进行映射。
Table2	创建表Table2	Table2目录下的文件类型都为csv，可以进行映射。
Table3	创建分区表Table3	分区格式为year=xx/month=xx/day=xx/。自动映射了以下分区： year=2020/month=03/day=01 year=2020/month=03/day=02 year=2020/month=04/day=29 year=2020/month=04/day=30
Table4	创建分区表Table4	分区格式为age=xx。自动映射了age=20分区。
Table5	创建分区表Table5	分区格式为partition_0=xx/partition_1=xx/partition_2=xx/。自动映射了以下分区： 2020/03/29 2020/03/30 说明由于没有分区键，这里使用partition_num来补充。

操作步骤

登录Data Lake Analytics管理控制台。
在左侧导航栏，单击数据湖管理 > 元信息发现。
在元信息发现页面的OSS数据源区域，单击进入向导。

在OSS数据源页签，根据页面提示进行参数配置，配置说明如下：


参数	说明
数仓模式和自由模式	您可以选择数仓模式或自由模式：数仓模式：为“基于OSS而构建的标准数据仓库”的场景构建自动化元信息发现，识别精度高。OSS路径数据布局要求为“库/表/文件”或者“库/表/分区/.../分区/文件”。自由模式：为“探索OSS上的数据进行分析”的场景构建自动化元信息发现。对OSS数据布局没有要求，可能会产生差异化的表。
OSS目录位置	文件在OSS中的存储地址，以/结尾。系统会根据您选择的文件夹路径，自动设置OSS路径。说明系统会自动拉取与DLA同地域的OSS Bucket，您可以根据业务需要从下拉列表中选择Bucket。选择Bucket后，系统会自动列出该Bucket下所有的Object和文件；选中目标Object和文件后，系统会自动将其添加到右侧的OSS路径处。
格式解析器	格式解析器会读取数据文件内容，从而确定文件的数据格式。默认自动解析，即按照顺序调用所有内置解析器，也可指定特定文件类型的格式解析器，比如json、parquet、avro、orc、csv。 json：需要读取文件开头以确定文件格式。 parquet：需要读取文件结尾处的schema以确定文件格式。 avro：需要读取文件开头处的shema以确定文件格式。 orc：要读取文件元数据以确定文件格式。 csv：检查以下分隔符：逗号（,）、竖线（\|）、制表符（\t）、分号（;）、空格（）、（\u0001）。
配置选项	高级自定义设置项，如更新，删除规则等。
调度频率	您可以根据需要定期计划运行元信息发现任务。
Schema名称	设置Schema名称，即映射到DLA中的数据库名称（默认每个发现任务会新创建一个独立的Schema）。

完成上述参数配置后，单击创建，开始创建元信息发现任务。

说明元信息发现任务创建完成后，DLA自动在您设定的时间周期运行发现任务，如果您想立即同步数据，也可以在任务列表选择立即执行。
任务开始运行后，会在实例列表显示任务实例的当前运行状态。也可以在任务列表界面管理任务的运行情况，支持查看任务的运行状态、配置的修改、跳转到DLA的SQL窗口进行快速的数据查询。

注意事项

数仓模式的注意事项如下：

如果OSS数据源路径没有被DLA识别出来，您需要查看路径下的文件类型是否相同。如果是CSV文件，您可以在解析器CSV中配置具体的参数比如分隔符、转义字符、是否有表头等。
由于元信息发现通过采样的方式并不能覆盖所有的记录，如果不同行的字段变化很大，会出现生成的表字段减少的情况。
在识别分区及表的时候，只支持子目录下只有文件的场景。如果目录下既有子目录又有文件，则该目录会被忽略掉，从而导致分区没有生成。

自由模式的注意事项如下：

元信息发现会如何生成表名
元信息发现会自动为它创建的表生成名称。存储在元数据管理schema目录中的表的名称遵循以下规则：
- 默认使用最后一级目录名作为表名（针对OSS数据文件）。
- 仅允许使用字母、数字、字符和下划线（_）。
- 表名的最大长度不能超过 128 个字符。发现程序会截断生成的名称以适应限制范围。
- 如果遇到重复的表名，则元信息发现会在表名后添加MD5字符串后缀。
元信息发现如何创建分区
当元信息发现扫描OSS目录文件并检测到多个文件时，它会在目录结构中确定表的根目录，以及哪些目录是表的分区。
表的名称基于OSS目录前缀或目录名，当某个目录级别下大部分的目录结构和文件格式都相同时，发现程序会创建一张分区表。例如，对于以下OSS目录结构：
```
oss://bucket01/folder1/table1/partition1/fiile.txt
oss://bucket01/folder1/table1/partition2/fiile.txt
oss://bucket01/folder1/table2/partition3/fiile.txt
oss://bucket01/folder1/table2/partition4/fiile.txt
```
因为table1和table2下的目录和文件内容都是相似的，所以发现程序将创建一个具有两个分区列的表。分区列分别为partition_0（table这一级目录）、partition_1（partition这一级目录）。
对于以下OSS目录结构：
```
oss://bucket01/folder1/table1/partition1/fiile.csv
oss://bucket01/folder1/table1/partition2/fiile.csv
oss://bucket01/folder1/table2/partition3/fiile.json
oss://bucket01/folder1/table2/partition4/fiile.json
```
因为table1和table2下的文件格式不同，所以发现程序将创建两张具有一个分区列的表。table1分区列包含partition1和partition2，table2分区列包含partition3和partition4。

对于采用key=value样式的Hive风格分区路径，发现程序会使用键名自动填充列名称。否则，它使用默认名称，如partition_0、partition_1 等。