雲原生資料湖分析(DLA)產品已下線,AnalyticDB for MySQL湖倉版支援DLA已有功能,並提供更多的功能和更好的效能。AnalyticDB for MySQL相關使用文檔,請參見什麼是雲原生資料倉儲AnalyticDB MySQL版。
雲原生資料湖分析(簡稱DLA)是新一代巨量資料解決方案,採取計算與儲存完全分離的架構,支援資料庫(RDS\PolarDB\NoSQL)與訊息即時歸檔建倉,提供彈性的Spark與Presto,滿足線上互動式查詢、流處理、批處理、機器學習等訴求,也是傳統Hadoop方案上雲的有競爭力的解決方案。
DLA支援的資料來源
DLA支援的資料來源矩陣,具體請參見資料來源與功能的矩陣。
資料來源 | Serverless Presto | Serverless Spark |
支援 | 支援 | |
支援 | 支援 | |
支援 | 支援 | |
待支援 | 支援 | |
支援 | 待支援 | |
支援 | 支援 | |
支援 | 支援 | |
支援 | 支援 | |
支援 | 支援 | |
支援 | 支援 | |
支援 | 支援 | |
支援 | 支援 | |
Kudu | 支援 | 支援 |
支援 | 支援 |
何時使用DLA
DLA主要圍繞資料湖儲存OSS提供一站式的雲原生資料湖分析與計算方案,如果您有如下的痛點可以使用DLA:
尋求一站式的資料湖解決方案,從資料高效入湖、資料的ETL、機器學習、互動式分析。DLA提供了資料湖構建、Presto&Spark引擎。
尋求安全的資料處理解決方案。DLA所有的庫表及儲存的資料都有一整套安全的方案,避免資料被誤用。
尋求低成本的資料處理方案。DLA方案是完全Serverless的解決方案,是阿里雲提供的雲原生的資料處理方案。
從之前Hadoop體系過渡到資料湖方案。DLA提供與Hadoop體系相容的過渡方案。
為什麼同時支援Serverless Presto與Serverless Spark?
DLA Serverless Presto是在開源Apache Presto基礎上研發,完全由記憶體完成計算工作,具備高效能、互動分析體驗,秒級可返回;DLA Serverless Spark是在開源Apache Spark基礎上研發,相容Apache Spark所有的API。
以下情境推薦您使用DLA Serverless Spark:
需要自訂Code,SQL很難表達的,例如編寫Java、Scala、Python或者SQL帶條件的。
需要大規模的清洗,例如1天清洗OSS 1 TB~1 PB的資料。
需要演算法支援,DLA Spark支援完整的Spark演算法庫。
需要支援Streaming。