通过Logstash导入数仓版 - 云原生数据仓库AnalyticDB

0.0.201

Logstash是开源的服务器端数据处理管道，能够同时从多个数据源采集数据，然后对数据进行转换，并将数据写入指定的存储中。云原生数据仓库 AnalyticDB MySQL 版完全兼容MySQL，您可以将Logstash Input插件支持的任一数据源中的数据写入AnalyticDB for MySQL。本文介绍如何使用Logstash将Kafka数据写入AnalyticDB for MySQL数仓版。

Logstash组件介绍

输入-采集各种样式、大小和来源的数据
在实际业务中，数据往往以各种各样的形式分散或集中地存储在多个系统中，Logstash支持多种数据输入方式，可以在同一时间从多种数据源采集数据。Logstash能够以连续的流式传输方式轻松地从用户的日志、指标、Web应用、数据存储以及AWS服务采集数据。
过滤-实时解析和转换数据
数据从源传输到目标存储的过程中，Logstash过滤器能够解析各个事件，识别已命名的字段来构建结构，并将它们转换成通用格式，从而更轻松、快速地分析和实现商业价值。
- 使用Grok从非结构化数据中派生出结构化数据。
- 从IP地址破译出地理坐标。
- 将PII数据匿名化，完全排除敏感字段。
- 简化整体处理，不受数据源、格式或架构的影响
输出-导出数据
除了AnalyticDB for MySQL以外，Logstash提供多种数据输出方向，灵活解锁众多下游用例。

操作步骤

Kafka是一个高吞吐量的分布式发布、订阅日志服务，具有高可用、高性能、分布式、高扩展、持久性等特点。目前Kafka已经被各大公司广泛使用，同时logstash也可以快速接入业务中，免去重复建设的麻烦。

在Apache Kafka服务器根目录，执行以下命令安装和更新插件。
```
$ bin/plugin install 
$ bin/plugin update
```
Logstash从1.5版本开始集成Kafka，Logstash 1.5及以上版本中所有插件的目录和命名都发生了改变，插件发布地址为Logstash-plugins。
配置插件。
- Input配置示例
  以下配置可以实现对Kafka读取端（consumer）的基本使用。
```
input {
    kafka {
        zk_connect => "localhost:2181"
        group_id => "Logstash"
        topic_id => "test"
        codec => plain
        reset_beginning => false # boolean (optional)， default: false
        consumer_threads => 5  # number (optional)， default: 1
        decorate_events => true # boolean (optional)， default: false
    }
}          
```
  参数说明：
  - group_id：消费者分组，可以通过组ID来指定，不同组之间的消费互不影响，相互隔离。
  - topic_id：指定消费话题（Topic），也可以理解为先订阅某个话题，然后消费。
  - reset_beginning：指定Logstash启动后从哪个位置开始读取数据，默认是结束位置，即Logstash进程会从上次读取结束时的偏移量开始继续读取数据；如果之前没有消费过，则从头读取数据。
    如果您要导入原数据，需将reset_beginning值改为true， Logstash进程将从头开始读取数据，作用类似于cat ，但是Logstash读到最后一行时不会终止，而是变成tail -F，继续监听相应数据。
  - decorate_events：指定输出消息时会输出自身信息，包括消费消息的大小、Topic来源以及consumer的group信息。
  - rebalance_max_retries：当有新的consumer（Logstash）加入到同一个group时，将会Reblance ，此后将会有Partitions的消费端迁移到新的consumer上。如果一个consumer获得了某个Partition的消费权限，那么它将会向Zookeeper注册Partition Owner registry节点信息，但是有可能此时旧的consumer尚没有释放此节点，此值用于控制注册节点的重试次数。
  - consumer_timeout_ms：在指定时间内没有消息到达将抛出异常，该参数一般无需修改。
  更多Input参数配置请参见Input。
  说明
  如果需要多个Logstash端协同消费同一个Topic，需要先把相应的Topic分多个Partitions（区），此时多个消费者消费将无法保证消息的消费顺序性，然后把两个或多个Logstash消费端配置成相同的group_id和topic_id。
- Output配置示例
```
output {
    jdbc {
        driver_class => "com.mysql.jdbc.Driver"
        connection_string => "jdbc:mysql://HOSTNAME/DATABASE?user=USER&password=PASSWORD"
        statement => [ "INSERT INTO log (host, timestamp, message) VALUES(?, ?, ?)", "host", "@timestamp", "message" ]
    }
}         
```
  参数说明：
  - connection_string：AnalyticDB for MySQL的连接地址。
  - statement：INSERT SQL的声明数组。
  更多Output参数配置请参见Output。
在Logstash安装目录中执行bin/Logstash -f config/xxxx.conf命令启动任务，将Kafka数据写入AnalyticDB for MySQL。

反馈

上一篇：Kafka下一篇：通过DataWorks导入数据

本页导读（1）

Logstash组件介绍

操作步骤

关于阿里云

阿里云全球基础设施

快速入门

全球办事处

2024年巴黎奥运会 New

罗兰加洛斯球场 - 岁月沉淀的辉煌 New

协和广场 - “打破”障碍 New

马恩河畔韦尔水上运动体育场 - 可持续的体育运动 New

国际广播中心 - 优质图像、声音和数据触达数十亿观众 New

客户成功案例 New

阿里云信任中心

合规计划

云合规资源

合规常见问题

云产品快报 New

Cloud Forward

新闻报道

阿里云电子期刊 New

阿里云调研分析报告

公告

阿里云出海业务 New

“橙”云出海服务联盟

Asia Accelerator Hot

信息合规

China Gateway - MLPS 2.0 合规 New

China Gateway - 网络

China Gateway - 全球应用加速 New

China Gateway - 安全

China Gateway - 数据安全 New

ICP支持服务 Hot

China Gateway - 全域数据中台 New

China Gateway - 一方数据中台 New

China Gateway - 业务中台 New

China Gateway - 智能客服解决方案 New

China Gateway - 在线教育

China Gateway - 域名注册

在阿里云工作

经验丰富的专业人士

学生和毕业生

免费试用

定价

优惠中心

降价

花钱更少，部署更多

FinOps

云服务器 ECS

轻量应用服务器 SAS

GPU 云服务器

无影云电脑 EDS

对象存储 OSS

云企业网 CEN

Web 应用防火墙 WAF

域名

容器计算服务 ACS

办公安全平台 SASE

智能媒体服务 IMS

边缘安全加速 ESA（原DCDN）

智能媒体管理 IMM

专属钉钉

宜搭

大模型服务平台（百炼）

Apsara Prime - 轻松选择云产品

阿里云 ECS-满足您所有云主机需求

1TB CDN — 立即获取免费的 1 TB 出站流量套餐

安全 — 受到攻击？ 获取免费安全支持

短信服务 - 现已免费开放测试

云服务器 ECS Hot

云盒

计算巢服务

专有宿主机 Hot

弹性裸金属服务器（神龙）

GPU 云服务器 Featured

轻量应用服务器 SAS Hot

弹性伸缩

无影云手机 Beta

无影云电脑 EDS Featured

批量计算

弹性高性能计算 E-HPC

超级计算集群 SCC

函数计算 FC

安全 — 受到攻击？获取免费安全支持