在Map阶段进行表之间的连接,而不需要进入到Reduce阶段才进行连接。这样可以节省在Shuffle阶段时要进行的大量数据传输工作,从而达到优化作业的目的。例如,当需要连接一个大表和一个小表时,您也可以将小表加载到内存中,从而提高运行效率。
配置组件
在Designer工作流页面添加JOIN组件(仅支持可视化方式配置),并在界面右侧配置相关参数:
参数 | 描述 |
连接类型 | 支持左连接、内连接、右连接和全连接。 |
MapJoin优化 | 将小表加载到内存中,提高运行速度。取值:
|
关联条件 | 仅支持等式,可手动添加或删除关联条件。 |
选择左表输出字段列 | 选择左表输出字段列。 |
选择右表输出字段列 | 选择右表输出字段列。 |