在Map階段進行表之間的串連,而不需要進入到Reduce階段才進行串連。這樣可以節省在Shuffle階段時要進行的大量資料轉送工作,從而達到最佳化作業的目的。例如,當需要串連一個大表和一個小表時,您也可以將小表載入到記憶體中,從而提高運行效率。
配置組件
在Designer工作流程頁面添加JOIN組件(僅支援可視化方式配置),並在介面右側配置相關參數:
參數 | 描述 |
連線類型 | 支援左串連、內串連、右串連和全串連。 |
MapJoin最佳化 | 將小表載入到記憶體中,提高運行速度。取值:
|
關聯條件 | 僅支援等式,可手動添加或刪除關聯條件。 |
選擇左表輸出欄位列 | 選擇左表輸出欄位列。 |
選擇右表輸出欄位列 | 選擇右表輸出欄位列。 |