全部產品
Search
文件中心

Object Storage Service:使用冷熱階層式存放區

更新時間:Nov 09, 2024

並不是所有OSS-HDFS中儲存的資料都需要頻繁訪問,但基於資料合規或者存檔等原因,部分資料仍然需要繼續儲存。針對以上問題,OSS-HDFS服務支援資料的冷熱階層式存放區,對於經常需要訪問的資料以標準類型進行儲存,對於較少訪問的資料以低頻、歸檔以及冷歸檔類型進行儲存,從而降低總儲存成本。

前提條件

  • 已在OSS-HDFS服務中寫入資料。

  • 華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)、華北3(張家口)、中國香港、新加坡、德國(法蘭克福)、美國(矽谷)、美國(維吉尼亞)、印尼(雅加達)地區支援使用冷熱階層式存放區功能。

  • 提交工單申請使用冷熱階層式存放區功能。

  • 已安裝4.4.0及以上版本JindoSDK 。具體操作,請參見非EMR叢集接入OSS-HDFS服務快速入門

注意事項

  • 讀取OSS-HDFS歸檔類型資料時,涉及資料取回費用。因此對於需要頻繁訪問的資料,應避免使用低頻、歸檔以及冷歸檔類型。關於這三種類型資料取回費用的更多資訊,請參見資料處理費用

  • 為OSS-HDFS服務的資料設定儲存策略時,涉及資料區塊添加標籤操作。資料區塊標籤費用遵循OSS對象標籤計費規則。更多資訊,請參見對象標籤費用

  • 當使用的JindoSDK版本低於6.4.0時,不支援在設定為低頻、歸檔以及冷Archive Storage類型的目錄下建立檔案。如果您需要在這三種類型的目錄下建立檔案,可以在標準類型目錄下建立並關閉檔案後,通過rename操作轉移到低頻、歸檔以及冷歸檔目錄。

    如果您希望在低頻、歸檔以及冷Archive Storage類型的目錄下直接建立檔案,您需要升級JindoSDK至6.4.0及以上版本。

  • 資料轉換為歸檔或者冷Archive Storage類型時,系統開銷大,解凍取回慢,請謹慎選擇。

  • 支援資料從歸檔類型轉換為冷Archive Storage類型,不支援資料從冷歸檔類型轉換為歸檔類型。

操作步驟

  1. 配置環境變數。

    1. 串連ECS執行個體。具體操作,請參見串連ECS執行個體

    2. 進入已安裝的JindoSDK JAR包下的bin目錄。

      以下以jindosdk-x.x.x-linux為例,如使用其他版本的JindoSDK,請替換為對應的JAR包名稱。

      cd jindosdk-x.x.x-linux/bin/
      說明

      x.x.x表示JindoSDK JAR包版本號碼。

    3. 授予bin目錄下的jindo-util檔案的讀、寫、執行的許可權。

      chmod 700 jindo-util
    4. jindo-util檔案重新命名為jindo

      mv jindo-util jindo
    5. 建立設定檔jindosdk.cfg,然後在設定檔中添加以下配置項。

      [common]保持以下預設配置。
      logger.dir = /tmp/jindo-util/
      logger.sync = false
      logger.consolelogger = false
      logger.level = 0
      logger.verbose = 0
      logger.cleaner.enable = true
      hadoopConf.enable = false
      
      [jindosdk]自訂以下配置項。
      <!-- 以下以杭州地區為例,其他地區請根據實際情況替換。 -->
      fs.oss.endpoint = cn-hangzhou.oss-dls.aliyuncs.com
      <!-- 配置訪問OSS-HDFS服務的AccessKeyId、AccessKeySecret。 -->
      fs.oss.accessKeyId = LTAI********    
      fs.oss.accessKeySecret = KZo1********                                        
    6. 設定環境變數。

      export JINDOSDK_CONF_DIR=<JINDOSDK_CONF_DIR>

      <JINDOSDK_CONF_DIR>填寫jindosdk.cfg 設定檔所在的絕對路徑。

  2. 指定為寫入OSS-HDFS服務的資料設定儲存策略。

    情境

    執行命令

    執行結果

    為寫入OSS-HDFS服務的資料設定儲存策略為低頻訪問儲存

    ./jindo fs -setStoragePolicy -path oss://examplebucket/dir1 -policy CLOUD_IA

    dir1/目錄下的檔案對應的資料區塊會攜帶Key為transition-storage-class、Value為IA的標籤資訊。

    為寫入OSS-HDFS服務的資料設定儲存策略為Archive Storage

    ./jindo fs -setStoragePolicy -path oss://examplebucket/dir2 -policy CLOUD_AR

    dir2/目錄下的檔案對應的資料區塊會攜帶Key為transition-storage-class、Value為Archive的標籤資訊。

    為寫入OSS-HDFS服務的資料設定儲存策略為冷Archive Storage

    ./jindo fs -setStoragePolicy -path oss://examplebucket/dir3 -policy CLOUD_COLD_AR

    dir3/目錄下的檔案對應的資料區塊會攜帶Key為transition-storage-class、Value為ColdArchive的標籤資訊。

  3. 開啟冷熱階層式存放區。

    1. 登入OSS管理主控台

    2. 單擊左側導覽列的Bucket列表,然後單擊目標Bucket。

    3. 在左側導覽列,選擇資料湖管理 > HDFS服務

    4. HDFS服務頁簽,單擊設定冷熱分層。

    5. 冷熱分層冷熱分層基礎設定地區,開啟狀態開關。

      1

      為避免配置錯誤導致冷熱分層無法正常工作,OSS會自動建立同時包含以下三種策略的生命週期規則:

      • 指定OSS-HDFS的資料存放區目錄.dlsdata/下攜帶Key為transition-storage-class、Value為IA標籤的資料在1天后轉為低頻訪問儲存。

      • 指定OSS-HDFS的資料存放區目錄.dlsdata/下攜帶Key為transition-storage-class、Value為Archive標籤的資料在1天后轉為Archive Storage。

      • 指定OSS-HDFS的資料存放區目錄.dlsdata/下攜帶Key為transition-storage-class、Value為ColdArchive標籤的資料在1天后轉為冷Archive Storage。

      重要

      請勿編輯階層式存放區開啟後自動建立的包含轉換為低頻、歸檔以及冷歸檔類型三種策略的生命週期規則,否則可能導致OSS-HDFS資料及服務異常。

    6. 單擊確定

      • OSS-HDFS服務會根據步驟2設定的儲存策略應用生命週期中對應的轉儲策略。

      • 生命週期規則建立後的24小時內,OSS會載入規則。規則載入完成後,OSS會在每天的北京時間08:00開始執行規則,具體執行時間取決於檔案數量,最快48小時內轉換為指定的儲存類型。

相關命令

命令文法

使用說明

./jindo fs -setStoragePolicy -path <path> -policy <policy>

該命令用於為某個路徑下的資料指定儲存策略。

  • -path:指定檔案或目錄所在路徑。

  • -policy:指定儲存策略。可選值為:

    • CLOUD_STD:標準儲存。

    • CLOUD_IA:低頻訪問

    • CLOUD_AR:Archive Storage。

    • CLOUD_COLD_AR:冷Archive Storage

    • CLOUD_AR_RESTORED:Archive Storage類型臨時解凍後的類型,有到期時間要求。

    • CLOUD_COLD_AR_RESTORED:冷Archive Storage類型臨時解凍後的類型,有到期時間要求。

重要
  • 單次提交將歸檔或者冷歸檔轉換為標準或者低頻的資料量不能超過5 TB,且同時處於Processing狀態的資料量不能超過50 TB。

  • 在沒有對檔案或子目錄設定儲存類型的情況下,檔案或子目錄的儲存策略預設繼承父目錄的儲存類型。例如oss://examplebucket/dir的儲存類型為CLOUD_STD,則oss://examplebucket/dir/subdir儲存類型也為CLOUD_STD

./jindo fs -getStoragePolicy -path <path>

該命令用於查詢指定路徑下資料的儲存策略。

./jindo fs -unsetStoragePolicy -path <path>

該命令用於取消指定路徑下的資料的儲存策略。

./jindo fs -checkStoragePolicy -path <path>

該命令用於查詢指定路徑下資料存放區策略的轉換狀態。轉換狀態分為以下四種:

  • Pending:任務等待提交。

  • Submitted:任務已提交。

  • Processing:任務正在執行。

  • Finalized:任務已完成。

說明

該命令只用於查詢OSS-HDFS中繼資料轉換任務的狀態,不能反映已提交到OSS的任務處理狀態。

./jindofs fs -setStoragePolicy -path <path> -policy <policy> -restoreDays <restoreDays>

該命令用於臨時解凍指定路徑下的歸檔或者冷Archive Storage類型的資料。

  • -path:指定檔案或目錄所在路徑。

  • -policy:指定儲存策略。可選值為:

    • CLOUD_AR_RESTORED:對應的原儲存類型為Archive Storage。

    • CLOUD_COLD_AR_RESTORED:對應的原儲存類型為冷Archive Storage。

  • -restoreDays:指定臨時解凍的天數,預設值為1天。

    • 如果原儲存類型為Archive Storage,則restoreDays支援的範圍為1~7天。

    • 如果原儲存類型為冷Archive Storage,則則restoreDays支援的範圍為1~365天。

臨時解凍歸檔或者冷歸檔資料時,有以下注意事項:

重要
  • 使用CLOUD_AR或者CLOUD_COLD_AR的策略進行儲存之後,必須間隔超過2天才可以進行解凍。

  • 解凍任務完成後,資料仍不能立即可讀。通常歸檔類型解凍後需要數分鐘後可讀,冷歸檔類型解凍後需要數小時後可讀。

  • 超出指定的臨時解凍天數後,資料回到不可讀狀態。處於臨時解凍狀態時,仍可以再次進行解凍,但是間隔必須超過2天以上。

常見問題

相關文檔