EMR-3.30版本JindoFS引入階層式存放區功能。通過該功能您可以根據資料冷熱程度選擇不同的儲存介質來儲存資料,以減少資料存放區成本,或者加速訪問資料的速度。
使用Jindo jfs
執行以下命令,擷取協助資訊。
jindo jfs -help archive
JindoFS階層式存放區命令均為非同步執行,階層式存放區命令只是啟動相關任務執行。
Cache命令
Cache命令可以備份對應路徑的資料至本叢集的磁碟,以便於後續可以讀取本機資料,無需讀取OSS上的資料。
jindo jfs -cache -p <path>
-p參數可以保證本機資料不受磁碟水位清理。
Uncache命令
Uncache命令可以刪除本地叢集中的本地備份,只儲存資料在OSS標準儲存上,以便於後續讀取OSS上的資料。
jindo jfs -uncache <path>
Archive命令
Archive命令可以Archive Storage資料,刪除本地磁碟上的資料備份,歸檔OSS上的資料至低頻訪問儲存或者Archive Storage上。儲存類型請參見Object Storage Service的儲存類型概述。
jindo jfs -archive -i|-a|-c <path>
指定以下參數時:
- -i:表示可以歸檔資料至低頻儲存類型。
- -a:表示可以歸檔資料至Archive Storage類型。
- -c:表示可以歸檔資料至冷Archive Storage類型。
Unarchive命令
Unarchive命令可以將資料從Archive Storage類型恢複到低頻儲存或者標準儲存,同時可以臨時解凍Archive Storage類型,使資料臨時可讀,有效時間為1天。
jindo jfs -unarchive -i/-o <path>
Unarchive預設可以將資料恢複成標準儲存,指定以下參數時:
- -i:表示可以恢複資料至低頻儲存類型。
- -o:表示可以臨時解凍Archive Storage類型,使資料臨時可讀。
Status命令
Status命令可以查看任務進度資訊,預設會統計該路徑需要執行階層式存放區的檔案數目以及已經完成的資料。
jindo jfs -status -detail/-sync <path>
指定以下參數時:
- -detail:表示可以查看檔案進度資訊。
- -sync:表示該命令需要同步等待階層式存放區任務結束才會退出。
ls2命令
JindoFS擴充hadoop ls相關操作,提供ls2命令可以查看檔案儲存體狀態。
hadoop fs -ls2 <path>
返回資訊會包含檔案的儲存類型,樣本如下。
drwxrwxrwx - - 0 2020-06-05 04:27 oss://xxxx/warehouse
-rw-rw-rw- 1 Archive 1484 2020-09-23 16:40 oss://xxxx/wikipedia_data.csv
-rw-rw-rw- 1 Standard 1676 2020-06-07 20:04 oss://xxxx/wikipedia_data.json