日志服务将日志投递到OSS后,支持存储为不同的文件格式,本文介绍Parquet格式。
参数配置
在配置投递规则时,如果选择存储格式为Parquet,对应的参数配置如下所示。
相关参数说明如下表所示。
参数 | 说明 |
Key名称 | 您可以在日志服务的原始日志页签中查看日志字段的Key,将您需要投递到OSS的字段名(Key)有序填入,在投递时将按照此顺序组织Parquet数据,并使用该key作为Parquet数据列名。除了日志内容的Key外,日志服务还提供保留字段__time__、__topic__、__source__,保留字段详情请参见保留字段。如果遇到如下两种情况时,Parquet数据列的值为null。
说明
|
类型 | Parquet格式支持存储string、boolean、int32、int64、float、double这6种类型的数据。其中, 日志投递后,string类型会以Parquet中的byte_array类型进行存储,且系统不会设置Parquet数据中 |
OSS文件地址
投递到OSS后,OSS文件地址示例如下表所示。
压缩类型 | 文件后缀 | OSS文件地址示例 | 说明 |
不压缩 | .parquet | oss://oss-shipper-shenzhen/ecs_test/2016/01/26/20/54_1453812893059571256_937.parquet | 下载到本地,使用数据消费方式打开 。具体操作,请参见数据消费。 |
压缩(snappy) | .snappy.parquet | oss://oss-shipper-shenzhen/ecs_test/2016/01/26/20/54_1453812893059571256_937.snappy.parquet |
数据消费
通过E-MapReduce、Spark 、Hive消费数据。更多信息,请参见社区文档。
通过单机校验工具消费数据。
Python的parquet-tools可以用于验证Parquet格式的文件、查看详细信息、读取数据内容。您可以自行安装或者使用如下命令安装。
pip3 install parquet-tools
查看Parquet文件指定列的内容。
命令
例如查看remote_addr、body_bytes_sent列。
parquet-tools show -n 2 -c remote_addr,body_bytes_sent 44_1693464263000000000_2288ff590970d092.parquet
返回结果
+----------------+-------------------+ | remote_addr | body_bytes_sent | |----------------+-------------------| | 61.243.1.63 | b'1904' | | 112.235.74.182 | b'4996' | +----------------+-------------------+
查看Parquet文件内容,也可以使用转成CSV格式的命令。
命令
parquet-tools csv -n 2 44_1693464263000000000_2288ff590970d092.parquet
返回结果
remote_addr,body_bytes_sent,time_local,request_method,request_uri,http_user_agent,remote_user,request_time,request_length,http_referer,host,http_x_forwarded_for,upstream_response_time,status b'61.**.**.63',b'1904',b'31/Aug/2023:06:44:01',b'GET',b'/request/path-0/file-7',"b'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_5_8) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.801.0 Safari/535.1'",b'uh2z',b'49',b'4082',b'www.kwm.mock.com',b'www.ap.mock.com',b'222.**.**.161',b'2.63',b'200' b'112.**.**.182',b'4996',b'31/Aug/2023:06:44:01',b'GET',b'/request/path-1/file-5',b'Mozilla/5.0 (Windows NT 6.1; de;rv:12.0) Gecko/20120403211507 Firefox/12.0',b'tix',b'71',b'1862',b'www.gx.mock.com',b'www.da.mock.com',b'36.**.**.237',b'2.43',b'200'
查看Parquet文件的详细信息的命令。
命令
parquet-tools inspect 44_1693464263000000000_2288ff590970d092.parquet
返回结果
############ file meta data ############ created_by: SLS version 1 num_columns: 14 num_rows: 4661 num_row_groups: 1 format_version: 1.0 serialized_size: 2345 ############ Columns ############ remote_addr body_bytes_sent time_local request_method request_uri http_user_agent remote_user request_time request_length http_referer host http_x_forwarded_for upstream_response_time status ############ Column(remote_addr) ############ name: remote_addr path: remote_addr max_definition_level: 1 max_repetition_level: 0 physical_type: BYTE_ARRAY logical_type: None converted_type (legacy): NONE compression: UNCOMPRESSED (space_saved: 0%) ......