全部产品
Search
文档中心

开源大数据平台E-MapReduce:Flink

更新时间:Dec 12, 2024

Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了更高抽象层的API以便您编写分布式任务。

背景信息

EMR Flink完全兼容开源Flink,相关内容请参见社区文档。例如:

使用场景

Flink广泛应用于大数据实时化的场景,本文从技术领域和企业应用场景进行介绍。

  • 技术领域

    从技术领域的角度,Flink主要用于以下场景:

    • 实时ETL(Extract-transform-load)和数据流

      实时ETL和数据流的目的是实时地把数据从A点投递到B点。在投递的过程中可能添加数据清洗和集成的工作,例如实时构建搜索系统的索引和实时数仓中的ETL过程等。实时ETL和数据流

    • 实时数据分析

      实时数据分析指的是根据业务目标,从原始数据中抽取对应信息并整合的过程。例如,查看每天销量前10的商品、仓库平均周转时间、文档平均单击率和推送打开率等。实时数据分析则是上述过程的实时化,通常在终端体现为实时报表或实时大屏。实时数据分析

    • 事件驱动应用

      事件驱动应用是对一系列订阅事件进行处理或作出响应的系统。事件驱动应用通常需要依赖内部状态,例如欺诈检测、风控系统、运维异常检测系统等。当您的行为触发某些风险控制点时,系统会捕获这个事件,并根据您当前和之前的行为进行分析,决定是否对您进行风险控制。时间驱动应用事件

  • 企业应用

    从企业应用的角度,Flink主要用于以下场景:

    • 业务部门:实时风控、实时推荐和搜索引擎的实时索引构建等。

    • 数据部门:实时数仓、实时报表和实时大屏等。

    • 运维部门:实时监控、实时异常检测和预警以及全链路Debug等。