JindoCache(原JindoFSx)是阿里雲EMR提供的用於加速雲原生資料湖的一個服務。他提供了資料緩衝和中繼資料快取等加速功能,並根據不同的CacheSet提供不同的讀寫策略,以滿足資料湖在不同使用情境下對訪問加速的需求。
背景資訊
CacheSet是JindoCache的緩衝抽象。在實際使用中,並非所有的資料都需要緩衝加速。考慮到資料湖的多樣化計算需求和情境,JindoCache提供了細粒度的存取原則選擇,您可以根據需要進行精確的配置。您可以根據具體情況選擇激進的中繼資料快取策略或完全不緩衝某些資料,以實現最佳的效能和資源利用效率。
使用情境
JindoCache可以用於如下情境:
OLAP(Presto查詢):提高查詢效能,縮短查詢時間。
DataServing(HBase):顯著降低P99延遲,減少請求費用。
巨量資料分析(Hive/Spark 報表):減少報表產生時間,最佳化計算叢集成本。
湖倉一體:減少請求費用,最佳化資料目錄(catalog)的響應延遲。
AI:加速訓練等情境,降低AI叢集使用成本,提供更全面的能力支援。
緩衝策略
JindoCache支援資料緩衝(包括分布式資料緩衝、一致性雜湊資料緩衝和本機快取)和中繼資料快取功能。