全部產品
Search
文件中心

Object Storage Service:Python資料校正

更新時間:Oct 26, 2024

OSS提供基於MD5和CRC64的資料校正,確保上傳、下載和拷貝檔案(Object)過程中的資料完整性。

注意事項

  • 本文以華東1(杭州)外網Endpoint為例。如果您希望通過與OSS同地區的其他阿里雲產品訪問OSS,請使用內網Endpoint。關於OSS支援的Region與Endpoint的對應關係,請參見OSS訪問網域名稱、資料中心、開放連接埠

  • 本文以從環境變數讀取存取憑證為例。如何配置訪問憑證,請參見配置訪問憑證

  • 本文以OSS網域名稱建立OSSClient為例。如果您希望通過自訂網域名、STS等方式建立OSSClient,請參見初始化

MD5校正

如果上傳檔案時設定了Content-MD5,OSS會根據接收的內容計算MD5。OSS計算的MD5值和上傳提供的MD5值不一致時,則返回InvalidDigest異常,從而保證資料的完整性。返回InvalidDigest異常後,您需要重新上傳檔案。

上傳檔案時進行MD5校正:

# -*- coding: utf-8 -*-
import oss2
from oss2.credentials import EnvironmentVariableCredentialsProvider
# 從環境變數中擷取訪問憑證。運行本程式碼範例之前,請確保已設定環境變數OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
auth = oss2.ProviderAuthV4(EnvironmentVariableCredentialsProvider())

# 填寫Bucket所在地區對應的Endpoint。以華東1(杭州)為例,Endpoint填寫為https://oss-cn-hangzhou.aliyuncs.com。
endpoint = "https://oss-cn-hangzhou.aliyuncs.com"
# 填寫Endpoint對應的Region資訊,例如cn-hangzhou。注意,v4簽名下,必須填寫該參數
region = "cn-hangzhou"

# examplebucket填寫儲存空間名稱。
bucket = oss2.Bucket(auth, endpoint, "examplebucket", region=region)

# 填寫Object的完整路徑,完整路徑中不能包含Bucket名稱,例如exampledir/exampleobject.txt。
object_name = 'exampledir/exampleobject.txt'
# 填寫要上傳檔案的本地路徑。在上傳時,該變數的值將作為上傳的內容傳輸到OSS。該檔案沒有格式限制,可以是任何類型的檔案內容,例如文本、圖片、視頻、音頻等。
with open('/Users/test/Desktop/demo.txt', 'rb') as file:
    content = file.read()

# 根據實際內容計算上傳內容對應的MD5。
content_md5 = oss2.utils.content_md5(content)
print('content_md5', content_md5)

# 上傳請求中攜帶'Content-MD5'的header,伺服器會校正上傳內容的MD5,用於保證上傳內容的完整性和正確性。
headers = dict()
headers['Content-MD5'] = content_md5
bucket.put_object(object_name, content, headers=headers)
說明

put_object、append_Object、post_Object、upload_part均支援MD5校正。

CRC64校正

使用CRC校正資料時,有如下注意事項:

說明
  • put_object、get_object、append_object、upload_part支援CRC64校正。上傳檔案時預設開啟CRC校正,如果用戶端計算的CRC值與服務端返回的CRC值不一致, 則會拋出InconsistentError異常。

  • 範圍下載不支援CRC64校正。

  • CRC64校正會佔用一定的CPU,對上傳、下載速度均會有影響。

  • 下載檔案時CRC64校正

    以下代碼用於下載檔案時進行CRC64資料完整性校正:

    # -*- coding: utf-8 -*-
    import oss2
    from oss2.credentials import EnvironmentVariableCredentialsProvider
    # 從環境變數中擷取訪問憑證。運行本程式碼範例之前,請確保已設定環境變數OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
    auth = oss2.ProviderAuthV4(EnvironmentVariableCredentialsProvider())
    
    # 填寫Bucket所在地區對應的Endpoint。以華東1(杭州)為例,Endpoint填寫為https://oss-cn-hangzhou.aliyuncs.com。
    endpoint = "https://oss-cn-hangzhou.aliyuncs.com"
    # 填寫Endpoint對應的Region資訊,例如cn-hangzhou。注意,v4簽名下,必須填寫該參數
    region = "cn-hangzhou"
    
    # examplebucket填寫儲存空間名稱。
    bucket = oss2.Bucket(auth, endpoint, "examplebucket", region=region)
    
    # 填寫Object的完整路徑。Object完整路徑中不能包含Bucket名稱。
    object_name = 'yourObjectName'
    
    # 查看是否已預設開啟crc校正。
    print('bucket.enable-crc:',  bucket.enable_crc)
    
    # bucket.get_object的傳回值是一個類檔案對象(File-Like Object),同時也是一個可迭代對象(Iterable)。
    object_stream = bucket.get_object(object_name)
    print(object_stream.read())
    
    # 由於get_object介面返回的是一個stream流,需要執行read()後才能計算出返回Object資料的CRC checksum,因此需要在調用該介面後做CRC校正。
    if object_stream.client_crc != object_stream.server_crc:
      print("The CRC checksum between client and server is inconsistent!")
  • 追加上傳時CRC64校正

    追加上傳時,如果指定了init_crc參數,則預設開啟CRC64校正。

    # -*- coding: utf-8 -*-
    import oss2
    from oss2.credentials import EnvironmentVariableCredentialsProvider
    # 從環境變數中擷取訪問憑證。運行本程式碼範例之前,請確保已設定環境變數OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
    auth = oss2.ProviderAuthV4(EnvironmentVariableCredentialsProvider())
    
    # 填寫Bucket所在地區對應的Endpoint。以華東1(杭州)為例,Endpoint填寫為https://oss-cn-hangzhou.aliyuncs.com。
    endpoint = "https://oss-cn-hangzhou.aliyuncs.com"
    # 填寫Endpoint對應的Region資訊,例如cn-hangzhou。注意,v4簽名下,必須填寫該參數
    region = "cn-hangzhou"
    
    # examplebucket填寫儲存空間名稱。
    bucket = oss2.Bucket(auth, endpoint, "examplebucket", region=region)
    
    object_name = "yourAppendObjectName"
    first_content = "yourFirstContent"
    second_content = "yourSecondContent"
    
    # 第一次追加上傳。
    # 在指定了init_crc的情況下,SDK預設會對返回結果進行crc校正。
    result = bucket.append_object(object_name, 0, first_content, init_crc=0)
    
    # 第二次追加上傳。
    # 指定init_crc為已上傳資料的crc。
    result = bucket.append_object(object_name, result.next_position, second_content, init_crc=result.crc)

相關文檔

關於資料校正的完整範例程式碼,請參見GitHub樣本