EMR Doctor支持分析OSS上的数据,开通OSS存储分析功能可以帮助您进一步了解OSS存储资源的使用情况和健康状态,让您更好地治理存储在OSS上的数据。
背景信息
OSS提供了存储清单功能,配置该功能后会定期为Bucket生成清单文件,清单文件中保存了OSS Bucket中Object的数量,大小等存储信息。EMR Doctor借助您Bucket中最新的清单文件,分析该Bucket的数据使用,健康状态以及与Hive存储分析关联。
使用EMR Doctor OSS存储分析需要您为Bucket预先开通存储清单功能。清单功能的详细介绍,请参见存储空间清单。
注意事项
开通OSS存储清单功能会产生一定的费用,具体请参见存储空间清单。
开通OSS清单功能
如果您的集群同时使用多个OSS Bucket并希望获取所有Bucket的存储分析,请按照以下开通流程在OSS控制台为所有Bucket开通存储清单功能。
配置OSS存储分析
OSS存储分析依赖于您通过存储清单功能生成的清单文件,需要您在EMR控制台TAIHAODOCTOR服务的配置页面配置以下参数。具体操作步骤及更多配置,请参见EMR Doctor配置说明。
配置项 | 说明 |
配置项 | 说明 |
| 被分析的OSS Bucket名称。 |
| 清单文件的目录。格式为:
|
例如,您OSS Bucket清单的配置参数为:清单报告存储路径 (inventory_path
)为 reports
,被分析的OSS Bucket名称(inventory_bucket
)为 my-bucket
,清单名称(inventory_name
) 为 my-inventory
。
那么,清单文件的目录(collect.oss.manifest.dir
)为:reports/my-bucket/my-inventory
。
如果您的集群同时使用了多个Bucket,并为每一个Bucket开通了存储清单功能,则可以按顺序将多个Bucket名称及其对应的清单文件目录配置到配置项中,并使用英文逗号(,)分隔。请确保Bucket填写顺序与清单文件的填写顺序对应。
单Bucket配置示例
Bucket以my-bucket
为例,最终存储分析配置如下所示。
collect.oss.bucket: my-bucket
collect.oss.manifest.dir: reports/my-bucket/my-inventory
多Bucket配置示例
Bucket以my-bucket1
和my-bucket2
为例,最终存储分析配置如下所示。
collect.oss.bucket: my-bucket1,my-bucket2
collect.oss.manifest.dir: reports1/my-bucket1/my-inventory1,reports2/my-bucket2/my-inventory2