全部產品
Search
文件中心

E-MapReduce:階層式存放區命令使用說明

更新時間:Jul 01, 2024

EMR-3.30版本JindoFS引入階層式存放區功能。通過該功能您可以根據資料冷熱程度選擇不同的儲存介質來儲存資料,以減少資料存放區成本,或者加速訪問資料的速度。

使用Jindo jfs

執行以下命令,擷取協助資訊。
jindo jfs -help archive

JindoFS階層式存放區命令均為非同步執行,階層式存放區命令只是啟動相關任務執行。

Cache命令

Cache命令可以備份對應路徑的資料至本叢集的磁碟,以便於後續可以讀取本機資料,無需讀取OSS上的資料。
jindo jfs -cache -p <path>

-p參數可以保證本機資料不受磁碟水位清理。

Uncache命令

Uncache命令可以刪除本地叢集中的本地備份,只儲存資料在OSS標準儲存上,以便於後續讀取OSS上的資料。
jindo jfs -uncache  <path>

Archive命令

Archive命令可以Archive Storage資料,刪除本地磁碟上的資料備份,歸檔OSS上的資料至低頻訪問儲存或者Archive Storage上。儲存類型請參見Object Storage Service的儲存類型概述
jindo jfs -archive -i|-a|-c <path>
指定以下參數時:
  • -i:表示可以歸檔資料至低頻儲存類型。
  • -a:表示可以歸檔資料至Archive Storage類型。
  • -c:表示可以歸檔資料至冷Archive Storage類型。

Unarchive命令

Unarchive命令可以將資料從Archive Storage類型恢複到低頻儲存或者標準儲存,同時可以臨時解凍Archive Storage類型,使資料臨時可讀,有效時間為1天。
jindo jfs -unarchive -i/-o <path>
Unarchive預設可以將資料恢複成標準儲存,指定以下參數時:
  • -i:表示可以恢複資料至低頻儲存類型。
  • -o:表示可以臨時解凍Archive Storage類型,使資料臨時可讀。

Status命令

Status命令可以查看任務進度資訊,預設會統計該路徑需要執行階層式存放區的檔案數目以及已經完成的資料。
jindo jfs -status -detail/-sync <path>
指定以下參數時:
  • -detail:表示可以查看檔案進度資訊。
  • -sync:表示該命令需要同步等待階層式存放區任務結束才會退出。

ls2命令

JindoFS擴充hadoop ls相關操作,提供ls2命令可以查看檔案儲存體狀態。
hadoop fs -ls2 <path>
返回資訊會包含檔案的儲存類型,樣本如下。
drwxrwxrwx  - -         0    2020-06-05 04:27 oss://xxxx/warehouse
-rw-rw-rw-  1 Archive   1484 2020-09-23 16:40 oss://xxxx/wikipedia_data.csv
-rw-rw-rw-  1 Standard  1676 2020-06-07 20:04 oss://xxxx/wikipedia_data.json