全部產品
Search
文件中心

Realtime Compute for Apache Flink:批作業開啟遠程Shuffle服務(公測)

更新時間:Nov 13, 2024

本文為您介紹如何在批作業中開啟遠程Shuffle服務,從而緩解磁碟容量不足的問題,並確保作業高效穩定運行。

背景資訊

在傳統的Flink批處理情境中,本地磁碟作為Shuffle資料的儲存載體,充分利用了資料本地化的優勢,顯著提升了處理效率。然而,這一方案受限於本地物理磁碟的容量,在面對超大規模資料時,往往需要同時增加Flink的計算資源和儲存資源。這一方式存在潛在的計算資源浪費,可能會為您帶來較大的成本開銷。

為瞭解決上述問題,我們推出了遠程Shuffle服務並於公測階段免費開放。Flink批作業在開啟遠程Shuffle服務後,Shuffle資料將儲存到高效能的Apache Celeborn叢集中,作業不再受限於Flink計算節點的磁碟容量,從而增強超大規模資料的處理能力,同時保持作業的高穩定性和成本效益。

重要
  • 此功能目前正處於公測階段,請在生產環境下謹慎使用。如遇問題,歡迎提交工單,我們將迅速響應,提供專業協助。

  • 遠程Shuffle服務暫時只支援新網路架構,目前仍有部分存量工作空間尚未升級完成,您可以聯絡我們在第一時間為您升級。

  • 遠程 Shuffle 服務在公測階段目前暫未支援所有地區,已支援的地區詳見遠程Shuffle服務可用性區域域。若您發現作業所在地區尚未支援,請聯絡我們在第一時間為您開通服務。

使用限制

  • 僅支援非Session模式的批作業。

  • 此功能僅Realtime ComputeFlink VVR 8.0.9及以上版本支援。

  • 作業所在工作空間已升級新網路架構,詳情請參見網路架構升級

  • 作業所在地區已支援遠程Shuffle服務,詳見遠程Shuffle服務可用性區域域

操作步驟

  1. 進入批作業參數配置入口。

    1. 登入Realtime Compute控制台

    2. 單擊目標工作空間操作列下的控制台

    3. 在左側導覽列上,選擇營運中心 > 作業營運

    4. 在作業模式下拉式清單中,選擇批作業批處理_ch.jpg

    5. 單擊目標作業詳情,單擊行參數配置地區右側的編輯

  2. 其他配置中,增加如下代碼資訊。

    execution.batch.remote-shuffle.enabled: true
  3. 單擊儲存

    參數儲存後會在新啟動的批任務中生效。

遠程Shuffle服務可用性區域域

  • 上海

  • 烏蘭察布

  • 新加坡

說明

若您的作業所在地區尚未開通遠程Shuffle服務,請即刻聯絡我們開通服務。