数据湖构建(Data Lake Formation,DLF)产品主要使用流程如下。
前提条件
注册阿里云账号,并完成实名认证。
创建数据源
创建数据湖的入湖来源,当前支持阿里云RDS MySQL和PolarDB作为数据来源。
您需要输入RDS MySQL连接的用户名和密码。
选择RDS MySQL所在的VPC、交换机和安全组。
详细操作请参见数据源管理。
创建入湖模板
创建入湖模板,可以定时或者手动的执行数据抽取任务,将数据源中指定的数据抽取到数据湖。
当前入湖模板支持5种数据抽取方式,可以根据数据抽取的场景选择并创建入湖模板。
入湖模板需要指定抽取数据的具体位置。
指定RAM角色,数据湖构建服务所代理的角色,默认为AliyunDLFWorkFlowDefaultRole。
选择运行抽取任务所需的资源,并指定任务运行方式。
详细操作请参见入湖模板。
创建数据湖的元数据
添加元数据库
创建元数据表,指定表中数据的存储位置和存储格式
详细操作请参见元数据管理。