E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor(即监控诊断页面的“健康诊断”和“集群日报”功能)可以全局了解集群的健康状况和动态走势,为运维决策和资源优化提供有力的信息支撑。
作为EMR集群的运维人员,通常需要关注以下内容:
集群的整体稳定性,包含关键服务组件的状态监控和异常处理。例如YARN、HDFS、Hive和Spark等。
集群的整体有效性,例如集群的负载、集群的内存和CPU有效利用率等。
集群用户的SLA,能够保证关键任务在获取足够资源的条件下按时完成。
EMR Doctor作为开源大数据集群的管家,提供以下能力:
及时掌握集群健康状况,提供关键服务的使用建议,降低集群运维的成本并不断提升稳定性。
获取集群资源的使用和分配状况,合理配置硬件资源,提升集群资源的利用效率。
辅助调优各个组件以及运行任务,提出可操作的优化建议,保证整体数据和计算链路的高效与稳定。