Trino - 开源大数据平台E-MapReduce

Trino（即原PrestoSQL）是一个开源的分布式SQL查询引擎，适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino，之前各版本控制台显示为Presto，内核其实是Trino，使用时请注意区分。

基本特性

Trino使用Java语言进行开发，具备易用、高性能和强扩展能力等特点，具体如下：

Trino的系统组成如下图所示。 Presto系统组成

Trino是典型的M/S架构的系统，由一个Coordinator节点和多个Worker节点组成。 Coordinator负责如下工作：

Worker节点负责执行下发到任务，通过连接器读取外部存储系统到数据，进行处理，并将处理结果发送给Coordinator节点。

Trino是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：

重要

Trino是一个数仓类产品，因为其对事务支持有限，所以不适合在线业务场景。

E-MapReduce（简称EMR）中的Trino与开源Trino比较，还具备如下优势：

数据模型即数据的组织形式。Trino使用Catalog、Schema和Table三层结构来管理数据。

Catalog
一个Catalog可以包含多个Schema，物理上指向一个外部数据源，可以通过Connector访问该数据源。一次查询可以访问一个或多个Catalog。
Schema
相当于一个数据库实例，一个Schema包含多张数据表。
Table
数据表，与一般意义上的数据库表相同。

Trino通过各种Connector来接入多种外部数据源。Trino提供了一套标准的SPI接口，用户可以使用这套接口开发自己的Connector，以便访问自定义的数据源。

一个Catalog通常会绑定一种类型的Connector，在Catalog的Properties文件中设置。Trino内置了多种Connector。