全部產品
Search
文件中心

Elastic Container Instance:資料緩衝概述

更新時間:Jul 06, 2024

對於一些資料量較大的業務資料,例如訓練模型等,ECI支援建立資料緩衝(DataCache)來提前拉取資料,將資料緩衝到本地,以便在建立ECI執行個體時可以直接掛載使用,從而減少執行個體啟動耗時,避免資料重複下載,節約使用成本。本文為您介紹什麼是資料緩衝,包括功能簡介、應用情境、建立和使用方式、計費說明等。

功能簡介

為瞭解決資料載入與容器鏡像載入解耦的問題,ECI提供了資料緩衝的功能。在建立業務應用前,您可以提前建立資料緩衝,將業務應用所需的資料緩衝到本地。在建立業務應用時,可以直接掛載使用緩衝好的資料。

通過資料緩衝功能,您無需將資料打包進應用鏡像,從而避免因資料變更而頻繁更新鏡像;也無需從遠端的倉庫下載資料,避免因下載資料導致應用啟動過慢。

應用情境

適合資料量大,或者資料經常更新的情境。例如在機器學習情境下,是否使用資料緩衝部署模型應用的流程如下:

  • 不使用資料緩衝

    1. 下載模型資料到開發環境。

    2. 將模型資料和應用打包製作容器鏡像,並建立鏡像緩衝。

    3. 基於鏡像緩衝部署應用。

    資料緩衝概述1.png

  • 使用資料緩衝

    1. 建立資料緩衝拉模數型資料。

    2. 將應用打包製作容器鏡像,並建立鏡像緩衝。

    3. 基於鏡像緩衝和資料緩衝部署應用。

    資料緩衝概述2.png

從流程可以看出,如果不使用資料緩衝,會帶來容器鏡像過大的問題,並且如果要更新模型,則需要重新製作鏡像,重複鏡像版本發布、鏡像緩衝製作,應用部署等工作。如果使用資料緩衝,將資料和鏡像解耦,在要更新模型時,只需重新製作資料緩衝,重新掛載到應用即可。

建立方式

您可以自行設定資料緩衝的屬性來建立資料緩衝。一個資料緩衝主要具有以下屬性:

  • 儲存路徑

    建立時,可以指定資料存放區空間(Bucket)以及在空間裡的儲存路徑(Path)。如果沒有指定Bucket,預設儲存在default。

  • 資料來源

    一般情況下,業務資料通常儲存在NAS檔案系統、OSS儲存空間等,對於一些模型,可能是儲存在ModelScope或者HuggingFace上。ECI對這些資料來源都提供了緩衝支援,可以從以下資料來源中拉取資料製作資料緩衝。

    • URL:具體某一資料下載連結、ModelScope和HuggingFace上的模型和資料集。

    • NAS:阿里雲NAS檔案系統。

    • OSS:阿里雲OSS儲存空間。

    • SNAPSHOT:阿里雲快照。

  • 大小

    建立前,您需要根據實際的資料量來確定資料緩衝的大小。建立時如果沒有指定大小,則資料緩衝預設為20 GiB。如果資料量超出20 GiB,資料緩衝會建立失敗。

  • 保留時間長度

    建立時如果沒有設定保留時間長度,則資料緩衝會一直保留。對於不需要長期使用的資料緩衝,建議您在建立時設定保留時間長度,以免產生不必要的快照費用。

使用方式

使用資料緩衝建立ECI執行個體時,您可以指定資料緩衝Bucket,並通過HostPath的方式直接掛載資料存放區路徑。此時,系統會自動建立並掛載一塊隨用隨付的雲端硬碟。該雲端硬碟的容量等於資料緩衝大小,隨執行個體一起建立和釋放。

計費說明

  • 建立資料緩衝

    建立資料緩衝的過程中會自動建立臨時資源(ECI執行個體和雲端硬碟),基於臨時資源建立一個快照,因此需支付臨時資源費用和快照費用。

  • 使用資料緩衝

    使用資料緩衝建立ECI執行個體時,將為ECI執行個體自動建立並掛載一個和資料緩衝相同大小的雲端硬碟,即除ECI執行個體費用外,需額外支付雲端硬碟費用。

更多資訊,請參見資料緩衝計費