對於一些資料量較大的業務資料,例如訓練模型等,ECI支援建立資料緩衝(DataCache)來提前拉取資料,將資料緩衝到本地,以便在建立ECI執行個體時可以直接掛載使用,從而減少執行個體啟動耗時,避免資料重複下載,節約使用成本。本文為您介紹什麼是資料緩衝,包括功能簡介、應用情境、建立和使用方式、計費說明等。
功能簡介
為瞭解決資料載入與容器鏡像載入解耦的問題,ECI提供了資料緩衝的功能。在建立業務應用前,您可以提前建立資料緩衝,將業務應用所需的資料緩衝到本地。在建立業務應用時,可以直接掛載使用緩衝好的資料。
通過資料緩衝功能,您無需將資料打包進應用鏡像,從而避免因資料變更而頻繁更新鏡像;也無需從遠端的倉庫下載資料,避免因下載資料導致應用啟動過慢。
應用情境
適合資料量大,或者資料經常更新的情境。例如在機器學習情境下,是否使用資料緩衝部署模型應用的流程如下:
不使用資料緩衝
下載模型資料到開發環境。
將模型資料和應用打包製作容器鏡像,並建立鏡像緩衝。
基於鏡像緩衝部署應用。
使用資料緩衝
建立資料緩衝拉模數型資料。
將應用打包製作容器鏡像,並建立鏡像緩衝。
基於鏡像緩衝和資料緩衝部署應用。
從流程可以看出,如果不使用資料緩衝,會帶來容器鏡像過大的問題,並且如果要更新模型,則需要重新製作鏡像,重複鏡像版本發布、鏡像緩衝製作,應用部署等工作。如果使用資料緩衝,將資料和鏡像解耦,在要更新模型時,只需重新製作資料緩衝,重新掛載到應用即可。
建立方式
您可以自行設定資料緩衝的屬性來建立資料緩衝。一個資料緩衝主要具有以下屬性:
儲存路徑
建立時,可以指定資料存放區空間(Bucket)以及在空間裡的儲存路徑(Path)。如果沒有指定Bucket,預設儲存在default。
資料來源
一般情況下,業務資料通常儲存在NAS檔案系統、OSS儲存空間等,對於一些模型,可能是儲存在ModelScope或者HuggingFace上。ECI對這些資料來源都提供了緩衝支援,可以從以下資料來源中拉取資料製作資料緩衝。
URL:具體某一資料下載連結、ModelScope和HuggingFace上的模型和資料集。
NAS:阿里雲NAS檔案系統。
OSS:阿里雲OSS儲存空間。
SNAPSHOT:阿里雲快照。
大小
建立前,您需要根據實際的資料量來確定資料緩衝的大小。建立時如果沒有指定大小,則資料緩衝預設為20 GiB。如果資料量超出20 GiB,資料緩衝會建立失敗。
保留時間長度
建立時如果沒有設定保留時間長度,則資料緩衝會一直保留。對於不需要長期使用的資料緩衝,建議您在建立時設定保留時間長度,以免產生不必要的快照費用。
使用方式
使用資料緩衝建立ECI執行個體時,您可以指定資料緩衝Bucket,並通過HostPath的方式直接掛載資料存放區路徑。此時,系統會自動建立並掛載一塊隨用隨付的雲端硬碟。該雲端硬碟的容量等於資料緩衝大小,隨執行個體一起建立和釋放。
計費說明
建立資料緩衝
建立資料緩衝的過程中會自動建立臨時資源(ECI執行個體和雲端硬碟),基於臨時資源建立一個快照,因此需支付臨時資源費用和快照費用。
使用資料緩衝
使用資料緩衝建立ECI執行個體時,將為ECI執行個體自動建立並掛載一個和資料緩衝相同大小的雲端硬碟,即除ECI執行個體費用外,需額外支付雲端硬碟費用。
更多資訊,請參見資料緩衝計費。