全部產品
Search
文件中心

DataWorks:客戶案例

更新時間:Jun 08, 2024

DataWorks在多個行業中均有典型的案例落地,協助多個行業的企業解決資料痛點,挖掘資料價值,本文為您介紹典型行業中已落地的客戶案例。

新零售行業:大潤發雲上資料中台建設

客戶架構如下。大潤發

  • 客戶簡介

    為了快速數字化轉型,擁抱新零售,大潤發計劃兩年內將IT系統全面遷移到阿里雲上,不再自建IDC。同時與阿里雲合作啟動資料中台專案,可以協助大潤發降低TCO的同時,更好的依託雲上生態,實現資料資產業務化閉環。

  • 客戶需求

    • 基於Hadoop開源生態打造,軟硬體維護成本高昂,穩定性問題不斷,嚴重影響業務經營分析。

    • 線上業務爆發,需求積壓嚴重,期望有整體解決方案,能夠快速靈活支援業務發展所需的技術擴充。

  • 價值體現

    通過MMA工具,15天完成400TB+歷史資料移轉,同時保證了遷移的準確性,讓客戶擁有平滑高效的上雲體驗。基于飛天巨量資料平台產品DataWorks+MaxCompute大大提高了資料業務的開發效率,構建大潤發的資料中台體系。

新金融行業:某互連網金融公司湖倉一體案例

客戶架構如下。互連網金融

  • 客戶簡介

    公司的第一代資料湖是基於Hadoop + OSS搭建的,同時引入的資料中台的執行引擎和儲存是 MaxCompute,兩套異構的執行引擎帶來儲存冗餘、中繼資料不統一、許可權不統一、湖倉計算不能自由流動的問題。

  • 客戶需求

    如架構圖所示,MaxCompute和EMR不同引擎用於不同的業務情境,使用阿里雲資料湖構建DLF統一做中繼資料管理和統一使用者權限管理。通過DataWorks進行全鏈路資料治理,提升資料品質與應用能力。

  • 價值體現

    • 將EMR的中繼資料統一到DLF,底層使用OSS作統一儲存,並通過湖倉一體打通EMR資料湖和MaxCompute數倉兩套體系,讓資料和計算在湖和倉之間自由流動。

    • 實現湖倉資料階層式存放區。資料中台對資料湖資料進行維度建模的中間表格儲存體在MaxCompute上,EMR或其他引擎消費ADS層。

新能源:某能源客戶基於DataWorks全鏈路資料治理案例

客戶架構如下。能源

  • 客戶簡介

    • 多家子公司經過多年建設,系統數量多,技術路線複雜多樣。

    • 資料分散,資料標準定義混亂,各類資料出現斷層,無法有效用於分析。

    • 資料管理權責不明,缺乏資料治理,沒有有效資料共用機制。

  • 客戶需求

    • 通過DataWorks+MaxCompute搭建資料中台,打破資料孤島。

    • 通過Realtime Compute+MaxCompute互動式分析(Hologres)提升資料中台即時性。

    • 通過DataWorks進行全鏈路資料治理,提升資料品質與應用能力。

  • 價值體現

    • 打造B2B智慧營銷系統,實現智能製造+互連網模式落地。

    • 打造離線即時一體化資料中台,構建統一、完整的巨量資料應用鏈路,服務內部幾大核心業務。

    • 全鏈路資料治理提高資料可用性,讓資料在中台進行自由流動,保證資料準確、準時、一致,成本削減1億元。

    • 提高業務迭代效率,資料更新頻率由1天變成10分鐘,新需求上線由1周變成1天。

互連網行業:快狗打車雲上巨量資料倉庫

客戶架構如下。快狗打車

  • 客戶簡介

    快狗打車則一直堅持通過“串連網路化”、“運力共用化”、“過程資料化”、“匹配智能化”等數字資訊化解決方案,將閑散運力統一整合到平台上,通過巨量資料將運力精準匹配市場需求,實現運力的節能減排,降低空駛率,有效提升行業運行效率,積極推動綠色物流發展。

  • 客戶需求

    • 海量資料處理效率下降,離線資料計算時間長度不穩定。

    • Realtime Compute開發維護成本高,希望對數倉進行綜合治理。

  • 價值體現

    基于飛天巨量資料平台產品,快狗打車不僅機器成本節約30%以上,資料開發效率提升100%。從Java Storm遷移到Flink SQL使Realtime Compute開發週期大大減少,維護更加容易,資料一致性得到更好地保障,提升了業務監控大屏的準確性和即時性,使用者可以更專註於業務,加速了業務的即時化。同時,阿里雲的24小時營運服務保證了叢集穩定,實現了零故障。

互連網行業:寶寶樹雲上巨量資料倉庫

客戶架構如下。寶寶樹

  • 客戶簡介

    寶寶樹成立於2007年,是中國最大、最活躍的母嬰類社區平台。作為最早做互連網2C的社區平台之一,寶寶樹很早就建立了自己的IDC叢集,而且規模越來越大。

  • 客戶需求

    • 叢集水位高,效能差,亟待巨量資料綜合治理。

    • IDC巨量資料每年投入成本高,希望降本提效。

  • 價值體現

    從巨量資料平台上雲整體“降本增效”的方案快速切入,遷移到巨量資料MaxCompute、Realtime Compute、DataWorks後,部分任務有10倍以上的效能提升,儲存從自建Hadoop 3PB降到900T,利用Flink即時資料處理能力,將寶寶樹現有的情境即時化(“基於使用者ID維度和內容類型的即時行為”、“擷取使用者的即時群聊ID”及“擷取文章的即時發布資訊”),並且基於Flink進行即時推薦增加轉化率。巨量資料平台整體成本節省30%以上。

遊戲行業:DeNA中國遊戲全鏈路營運

客戶架構如下。遊戲

  • 客戶簡介

    DeNA是優秀的網路服務公司,隨著遊戲專案的生命週期越來越短,專案的各個階段走向即時、精準的把控,需要構建經濟、高效的精細化資料營運體系。

  • 客戶需求

    • 存在Hadoop1.0、2.0兩個叢集,技術架構複雜,平台的穩定性和安全性、資源的Auto Scaling能力都遇到了瓶頸。

    • 日誌來源渠道多,即時性要求高,基於fluentd的檔案採集服務,隨著日誌量的增多,效能、穩定性存在明顯瓶頸。

    • “人肉指令碼”的資料開發方式,業務支援效率低,且hive計算效能無法滿足需求。

  • 價值體現

    DeNA中國是遊戲行業首家應用Lightning Cube+MMA工具專案,在無專線等環境下,1個多月就完成10年增量RDS庫300TB+歷史資料50TB的資料移轉,具備較高的技術複雜度。相較之前客戶基於python開源的airflow任務管理系統來說,DataWorks擁有以下優勢:

    • 任務管理一目瞭然,任務出錯定位以及即時跳轉到相關任務代碼修複。

    • 資料來源一次性管理,不需要重複勞動,可被多種資料服務需求使用遊戲業務擁有上百個資料來源。

    • 整體技術下沉,使得資源調度等都不需要自己耗費精力和"額外"的coding,而實現專註於管理開發。

    遷移完成後,飛天巨量資料平台覆蓋資料擷取>儲存&計算>即時/離線分析等遊戲資料營運全鏈路。