本文為您介紹如何在批作業中開啟遠程Shuffle服務,從而緩解磁碟容量不足的問題,並確保作業高效穩定運行。
背景資訊
在傳統的Flink批處理情境中,本地磁碟作為Shuffle資料的儲存載體,充分利用了資料本地化的優勢,顯著提升了處理效率。然而,這一方案受限於本地物理磁碟的容量,在面對超大規模資料時,往往需要同時增加Flink的計算資源和儲存資源。這一方式存在潛在的計算資源浪費,可能會為您帶來較大的成本開銷。
為瞭解決上述問題,我們推出了遠程Shuffle服務並於公測階段免費開放。Flink批作業在開啟遠程Shuffle服務後,Shuffle資料將儲存到高效能的Apache Celeborn叢集中,作業不再受限於Flink計算節點的磁碟容量,從而增強超大規模資料的處理能力,同時保持作業的高穩定性和成本效益。
此功能目前正處於公測階段,請在生產環境下謹慎使用。如遇問題,歡迎提交工單,我們將迅速響應,提供專業協助。
遠程Shuffle服務暫時只支援新網路架構,目前仍有部分存量工作空間尚未升級完成,您可以聯絡我們在第一時間為您升級。
遠程 Shuffle 服務在公測階段目前暫未支援所有地區,已支援的地區詳見遠程Shuffle服務可用性區域域。若您發現作業所在地區尚未支援,請聯絡我們在第一時間為您開通服務。
使用限制
僅支援非Session模式的批作業。
此功能僅Realtime ComputeFlink VVR 8.0.9及以上版本支援。
作業所在工作空間已升級新網路架構,詳情請參見網路架構升級。
作業所在地區已支援遠程Shuffle服務,詳見遠程Shuffle服務可用性區域域。
操作步驟
進入批作業參數配置入口。
單擊目標工作空間操作列下的控制台。
在左側導覽列上,選擇
。在作業模式下拉式清單中,選擇批作業。
單擊目標作業詳情,單擊運行參數配置地區右側的編輯。
在其他配置中,增加如下代碼資訊。
execution.batch.remote-shuffle.enabled: true
單擊儲存。
參數儲存後會在新啟動的批任務中生效。
遠程Shuffle服務可用性區域域
上海
烏蘭察布
新加坡
若您的作業所在地區尚未開通遠程Shuffle服務,請即刻聯絡我們開通服務。