开通并配置OSS存储分析

更新时间:2025-02-26 02:25

EMR Doctor支持分析OSS上的数据,开通OSS存储分析功能可以帮助您进一步了解OSS存储资源的使用情况和健康状态,让您更好地治理存储在OSS上的数据。

背景信息

OSS提供了存储清单功能,配置该功能后会定期为Bucket生成清单文件,清单文件中保存了OSS Bucket中Object的数量,大小等存储信息。EMR Doctor借助您Bucket中最新的清单文件,分析该Bucket的数据使用,健康状态以及与Hive存储分析关联。

使用EMR Doctor OSS存储分析需要您为Bucket预先开通存储清单功能。清单功能的详细介绍,请参见存储空间清单

注意事项

开通OSS存储清单功能会产生一定的费用,具体请参见存储空间清单

开通OSS清单功能

如果您的集群同时使用多个OSS Bucket并希望获取所有Bucket的存储分析,请按照以下开通流程在OSS控制台为所有Bucket开通存储清单功能。

  1. 登录OSS管理控制台

  2. 单击Bucket 列表,然后单击目标Bucket名称。

  3. 在左侧导航栏,选择数据管理 > Bucket清单

  4. Bucket清单页面,单击创建清单

  5. 设置清单报告规则面板,设置相关参数,具体请参见存储空间清单

    重要
    • 确保存储清单Bucket与当前正在开通OSS存储清单功能的Bucket一致。

    • 如果您存储在OSS中的文件数量较多(大于100亿时),建议清单报告导出周期选择每周,其他情况下可以选择导出周期为每天。

    • 确保清单内容可选信息包含Object大小存储类型两项。

  6. 选中我知晓并同意授予阿里云OSS服务访问Bucket资源的权限后,单击确定

配置OSS存储分析

OSS存储分析依赖于您通过存储清单功能生成的清单文件,需要您在EMR控制台TAIHAODOCTOR服务的配置页面配置以下参数。具体操作步骤及更多配置,请参见EMR Doctor配置说明

配置项

说明

配置项

说明

collect.oss.bucket

被分析的OSS Bucket名称。

collect.oss.manifest.dir

清单文件的目录。格式为:inventory_path/inventory_bucket/inventory_name。可参见开通OSS清单功能中的Bucket清单列表。

  • inventory_path是您上一步配置的清单报告存储路径。

  • inventory_bucket是存储清单Bucket,即被分析的OSS Bucket名称。

  • inventory_name是您上一步配置的清单名称。

例如,您OSS Bucket清单的配置参数为:清单报告存储路径 (inventory_path)为 reports,被分析的OSS Bucket名称(inventory_bucket)为 my-bucket,清单名称(inventory_name) 为 my-inventory

那么,清单文件的目录(collect.oss.manifest.dir)为:reports/my-bucket/my-inventory

重要

如果您的集群同时使用了多个Bucket,并为每一个Bucket开通了存储清单功能,则可以按顺序将多个Bucket名称及其对应的清单文件目录配置到配置项中,并使用英文逗号(,)分隔。请确保Bucket填写顺序与清单文件的填写顺序对应。

单Bucket配置示例

Bucket以my-bucket为例,最终存储分析配置如下所示。

collect.oss.bucket:   my-bucket
collect.oss.manifest.dir:   reports/my-bucket/my-inventory

多Bucket配置示例

Bucket以my-bucket1my-bucket2为例,最终存储分析配置如下所示。

collect.oss.bucket:   my-bucket1,my-bucket2
collect.oss.manifest.dir:   reports1/my-bucket1/my-inventory1,reports2/my-bucket2/my-inventory2
  • 本页导读 (1)
  • 背景信息
  • 注意事项
  • 开通OSS清单功能
  • 配置OSS存储分析
  • 单Bucket配置示例
  • 多Bucket配置示例
文档反馈
phone 联系我们