儲存常見問題 - Container Service for Kubernetes

本文匯總了使用CSI儲存群組件掛載和使用儲存卷的常見問題。

典型問題

掛載和使用儲存卷時，如有Pod狀態異常，儲存卷掛載失敗的問題，可參考儲存異常問題排查進行排查。

以下是一些典型的常見問題：

雲端硬碟儲存卷

類型	問題
建立	動態建立PV失敗且提示InvalidDataDiskCatagory.NotSupported 動態建立PV失敗且提示The specified AZone inventory is insufficient 動態建立PV失敗且提示disk size is not supported 動態建立PV失敗且提示waiting for first consumer to be created before binding 動態建立PV失敗且提示no topology key found on CSINode node-XXXX 動態建立PV失敗且提示selfLink was empty, can't make reference PVC的容量申請低於20 GiB時，動態建立PV失敗
掛載	啟動掛載了雲端硬碟的Pod時提示had volume node affinity conflict 啟動掛載了雲端硬碟的Pod時提示can't find disk 啟動掛載了雲端硬碟的Pod時提示Previous attach action is still in process 啟動掛載了雲端硬碟的Pod時提示InvalidInstanceType.NotSupportDiskCategory 啟動掛載了雲端硬碟的Pod時提示diskplugin.csi.alibabacloud.com not found in the list of registered CSI drivers 啟動掛載了雲端硬碟的Pod時提示Multi-Attach error for volume 啟動掛載了雲端硬碟的Pod時提示Unable to attach or mount volumes: unmounted volumes=[xxx], unattached volumes=[xxx]: timed out waiting for the condition 啟動掛載了雲端硬碟的Pod時提示validate error Device /dev/nvme1n1 has error format more than one digit locations 啟動掛載了雲端硬碟的Pod時提示ecs task is conflicted 啟動掛載了雲端硬碟的Pod時提示wrong fs type, bad option, bad superblock on /dev/xxxxx missing codepage or helper program, or other error 啟動掛載了雲端硬碟的Pod時提示exceed max volume count 啟動掛載了雲端硬碟的Pod時提示The amount of the disk on instance in question reach its limits 如何更改預設建立的雲端硬碟類StorageClass的配置多個容器應用是否可以使用同一個雲端硬碟儲存卷
使用	應用在讀寫雲端硬碟掛載目錄時提示input/output error 使用雲端硬碟儲存卷時，如何設定雲端硬碟掛載目錄的使用者存取權限
擴容	雲端硬碟儲存卷是否會自動擴容擴容雲端硬碟失敗，提示Waiting for user to (re-)start a pod to finish file system resize of volume on node 擴容雲端硬碟失敗，提示only dynamically provisioned pvc can be resized and the storageclass that provisions the pvc must support resize
卸載	刪除掛載了雲端硬碟的Pod時提示The specified disk is not a portable disk 刪除掛載了雲端硬碟的Pod時提示無法卸載雲端硬碟，kubelet日誌中發現Orphaned pod（不受ACK管理的Pod）刪除掛載了雲端硬碟的Pod後，Pod無法重新啟動，提示掛載失敗且無法自動回復刪除掛載了雲端硬碟的Pod時提示target is busy 刪除PVC之後，雲端硬碟依舊殘留刪除PVC失敗，刪除後PVC依舊存在
其他	作為儲存卷使用的雲端硬碟可以轉為訂用帳戶嗎在ECS控制台的Block Storage頁面，如何判斷哪些雲端硬碟是儲存卷關聯的雲端硬碟

NAS儲存卷

類型	問題
掛載	掛載NAS儲存卷時，提示chown: Operation not permitted 掛載NAS動態儲存裝置卷時，Controller的任務隊列已滿且無法建立新的PV NAS儲存卷掛載時間延長掛載NAS儲存卷時，提示unknown filesystem type "xxx" Pod使用兩個PVC掛載NAS儲存卷時，一直處於ContainerCreating狀態如何通過CSI使用TLS掛載NAS檔案系統如何?NAS的使用者或使用者組隔離多個容器應用是否可以使用同一個NAS儲存卷在ACS中掛載NAS失敗，提示failed to do setup volume
使用	使用NAS儲存卷時，無法建立或修改目錄讀寫檔案時，提示NFS Stale File Handle
卸載	卸載NAS儲存卷逾時，Pod一直處於Terminating狀態

OSS儲存卷

ossfs 1.0

類型	問題
掛載	OSS儲存卷掛載時間延長 OSS儲存掛載許可權問題 OSS儲存卷掛載失敗，業務Pod Event提示FailedMount OSS儲存卷掛載失敗，業務Pod Event提示FailedAttachVolume 如何通過OSS儲存卷僅掛載OSS中的某個檔案如何在RRSA鑒權方式中使用指定的ARNs或ServiceAccount？如何跨帳號掛載OSS Bucket？如何使用CoreDNS解析OSS訪問端點？ ossfs容器化後如何開啟獨享掛載模式？使用subpath或subpathExpr方式掛載OSS儲存卷異常
使用	OSS儲存卷訪問Bucket過慢 OSS控制台看到檔案大小為0 業務訪問掛載點報錯"Transport endpoint is not connected" 業務訪問掛載點報錯"Input/output error" 檔案目錄掛載後，顯示為檔案對象 OSS服務端監控到大量異常請求流量通過OSS儲存卷寫入的檔案對象的中繼資料Content-Type全為application/octet-stream類型建立永久連結時返回錯誤Operation not supported或Operation not permitted 如何查看通過OSS儲存卷訪問OSS的記錄？共用掛載方式下，如何重啟ossfs進程？如何查看掛載OSS儲存卷時使用的ossfs版本？
擴容	實際儲存容量超出OSS儲存卷的配置時，是否需要擴容儲存卷
卸載	OSS靜態卷卸載失敗，Pod一直處於Terminating狀態

ossfs 2.0

類型	問題
掛載	OSS儲存卷掛載失敗如何通過OSS儲存卷僅掛載OSS中的某個檔案如何跨帳號掛載OSS Bucket？如何使用CoreDNS解析OSS訪問端點？如何在RRSA鑒權方式中使用指定的ARNs或ServiceAccount？
擴容	實際儲存容量超出OSS儲存卷的配置時，是否需要擴容儲存卷
使用	如何重啟ossfs 2.0進程

儲存群組件

類型	問題
組件異常問題	CSI組件啟動失敗，組件日誌出現403 - Forbidden報錯 CSI組件啟動失敗，鏡像拉取失敗，報錯exec /usr/bin/plugin.csi.alibabacloud.com: exec format error 儲存群組件導致的OOM問題 csi-plugin的Pod監控出現高網路流量 csi-provisioner組件日誌出現failed to renew lease xxx timed out waiting for the condition報錯
組件升級失敗	csi-plugin組件前置檢查失敗 csi-plugin組件前置檢查通過，但升級失敗控制台有csi-plugin組件，但沒有csi-provisioner組件 csi-provisioner組件前置檢查失敗 csi-provisioner組件前置檢查通過，但是升級失敗叢集節點數量或許可權不符合要求導致csi-provisioner組件升級失敗 StorageClass屬性變更導致csi-provisioner組件升級失敗

CNFS

ACK叢集升級後，出現`IPAddress ... for Service ... has a wrong reference`事件警示

問題現象

叢集升級後，通過kubectl get events -A觀察到有持續的Warning類型的事件，內容如下：

IPAddress: <IP_ADDRESS> for Service kube-system/cnfs-cache-ds-service has a wrong reference; cleaning up

此問題通常發生在：

叢集storage-operator 組件版本低於 v1.33.1。
叢集從 1.32 及以下版本升級至 1.33 及以上版本。

問題原因

低於 v1.33.1 版本的 storage-operator 存在一個已知問題：會不斷嘗試建立已存在的 Service。在 Kubernetes 1.33 及以上版本中，由於 MultiCIDRServiceAllocator 特性被預設啟用，這一重複行為會觸發該特性，導致系統陷入快速建立並刪除臨時 IPAddress 資源的迴圈。

解決方案

升級storage-operator組件。

為什麼手動刪除`kube-system/cnfs-cache-ds-service`後又被自動重建了？

問題現象

嘗試手動刪除kube-system命名空間下的cnfs-cache-ds-service後，操作顯示已刪除，但再次檢查該Service時，又重新出現。

問題原因

此問題由storage-operator組件引起，其工作邏輯如下：

期望狀態：storage-operator的ConfigMap中定義了cnfs-cache-ds-service的安裝狀態為true。
持續監控：該組件會持續檢查叢集，確保上述Service存在。
自動修複：手動刪除Service時，控制器發現Service與期望狀態不符，將立即重新建立以進行“糾正”。

解決方案

方式一：升級storage-operator組件（推薦）

請參見升級storage-operator組件。

方式二：修改storage-operator配置（臨時方案）

此方法通過直接修改storage-operator的設定檔，以告知不再需要cnfs-cache-ds。

找到並編輯kube-system命名空間下的storage-operatorConfigMap。
```
kubectl edit configmap storage-operator -n kube-system
```
定位data欄位下的cnfs-cache-ds，將其install值從true修改為false。
```
cnfs-cache-ds:
  install: "false"
  # ...其他配置...
```
儲存並退出編輯器。storage-operator會載入新配置。

再次執行刪除Service的命令。

kubectl delete service cnfs-cache-ds-service -n kube-system

典型問題

雲端硬碟儲存卷

NAS儲存卷

OSS儲存卷

ossfs 1.0

ossfs 2.0

儲存群組件

CNFS

ACK叢集升級後，出現IPAddress ... for Service ... has a wrong reference事件警示

問題現象

問題原因

解決方案

為什麼手動刪除kube-system/cnfs-cache-ds-service後又被自動重建了？

問題現象

問題原因

解決方案

方式一：升級storage-operator組件（推薦）

方式二：修改storage-operator配置（臨時方案）

ACK叢集升級後，出現`IPAddress ... for Service ... has a wrong reference`事件警示

為什麼手動刪除`kube-system/cnfs-cache-ds-service`後又被自動重建了？