通常情況下,您的Linux執行個體所擁有的磁碟空間是有限的。如果您的應用服務部署在Linux執行個體上,隨著應用服務的持續運行和隱藏檔的不斷增加,磁碟剩餘空間將逐漸減少。當您的磁碟空間不足時,服務將無法繼續將檔案寫入磁碟,從而可能導致服務異常。本文介紹判斷磁碟空間不足的方法及其相應的解決方案。
問題現象
在Linux系統的Elastic Compute Service執行個體中建立檔案或運行應用時,如出現No space left on device
的錯誤提示,這表明您的磁碟空間已不足。此時,您需排查導致磁碟空間不足的原因,並根據具體情況採取相應措施以解決磁碟不足的問題。
可能原因
磁碟空間不足的問題通常有以下幾類原因:
磁碟分割空間使用率達到100%。
磁碟分割Inode使用率達到100%。
磁碟存在已刪除未釋放的殭屍檔案。
說明已刪除的檔案可能由於在刪除之前其檔案控制代碼處於開啟狀態,從而導致在檔案刪除時未能釋放檔案空間。
掛載點被覆蓋。
說明如果原有檔案系統的目錄下已經存在大量檔案,在該掛載點(目錄)掛載新裝置後,原掛載點將被覆蓋。然而,您系統內的應用可能仍會繼續對原有檔案系統空間進行讀寫操作,此時可能會出現您的應用報告空間不足的情況,然而在使用
df
或du
命令查看磁碟檔案目錄的容量使用方式時卻無法反映出這一點。這是因為df
或du
命令統計的是當前掛載點所對應的分區的使用方式。inotify watches達到上限。
說明inotify是Linux系統中一種監控檔案系統事件的機制,廣泛應用於即時監控檔案系統中的檔案變化。該錯誤實際上與磁碟空間無關,並不表示磁碟儲存空間已滿。本文檔對這一報錯進行了補充說明,以便協助您排查並解決該問題。
排查方法和解決方案
出現No space left on device
錯誤提示的原因有多種,請根據具體問題的原因進行相應處理。
以下排查方法和解決方案需要遠端連線到需要安裝的ECS執行個體。具體操作,請參見使用Workbench工具以SSH協議登入Linux執行個體。
在以下操作中,如需通過刪除檔案來釋放磁碟空間,請務必在刪除之前確認該檔案已不再需要,以防止因刪除檔案導致的資料丟失或對您的業務產生不利影響。建議在手動刪除檔案之前進行磁碟備份,您可以選擇自行拷貝檔案,或通過快照方式進行資料備份。關於如何建立快照,請參見建立快照。
磁碟分割空間使用率達到100%
排查方法
檢查磁碟的當前使用率,並識別高佔用的檔案。
執行以下命令,查看磁碟使用率。
df -h
回顯資訊如下所示。樣本中分區
/dev/vda3
的使用率達到100%。執行以下命令,進入根目錄,查看哪個目錄佔用磁碟空間較大。
sudo du -sh /* | sort -rh | head -n 10
回顯資訊如下所示。從圖示中可以看出,
/home
目錄佔用空間最大,因此需要繼續查看/home
目錄下哪個檔案或目錄佔用空間較大。請您根據實際情況進行操作。執行以下命令,逐級查看哪個目錄佔用磁碟空間較大。
例如在本樣本中,進入較大的
/home
目錄,繼續查看/home
目錄下哪個檔案或目錄較大。sudo du -sh /home/* | sort -rh | head -n 10
回顯資訊如下所示。從圖示可以看出,
ecs-user
目錄佔用了最大的儲存空間,因此需要進一步檢查ecs-user目錄下的具體檔案或子目錄,以確定哪些項佔用了較大空間。以此類推,最終定位到在
/home/ecs-user/
目錄下有無效的可刪除的大檔案。
解決方案
請您根據業務情境及實際情況進行判斷,並採取相應措施。
磁碟分割Inode使用率達到100%
磁碟分割Inode是檔案系統中的一個重要概念,檔案系統內每個檔案和目錄都由一個唯一的Inode標識。每個磁碟分割在格式化時會預分配一定數量的Inodes,但是如果檔案系統中存在大量小檔案或目錄,Inode資源也可能成為系統資源的瓶頸。當所有Inodes都被分配完畢,即使磁碟還有剩餘空間,也無法再建立新的檔案或目錄。此時,需要清理不必要的檔案以釋放Inode,或者增加Inode數量來解決磁碟分割Inode使用率達到100%的問題。
排查方法
執行以下命令,查詢Inode使用率。
df -i
解決方案
如果Inode使用率達到或者接近100%,可以通過以下兩種方式進行處理:
存在殭屍檔案
如果磁碟分割容量和Inode容量均正常,可能是系統中存在大量已被刪除(顯示為deleted
)的檔案,這些檔案仍被系統內進程佔用,導致系統無法釋放相應的磁碟空間。由於這些檔案已被標記為刪除,通過df
或du
命令無法進行統計。如果殭屍檔案數量過多,將佔用較大的磁碟空間。您可以參考以下步驟以查看並刪除殭屍檔案。
排查方法
如果系統沒有預裝lsof,選擇以下合適命令,安裝lsof。
Alibaba Cloud Linux、CentOS
sudo yum install -y lsof
Debian、Ubuntu
sudo apt install -y lsof
執行以下命令,查看殭屍檔案佔用情況。
sudo lsof | grep delete | sort -k7 -rn | more
系統顯示類似如下資訊,其中第7列為對應檔案的大小(單位為Byte),您可以將第七列值累加起來看總檔案大小和您非預期的磁碟使用空間是否接近,接近即為殭屍檔案佔用了您磁碟空間。
解決方案
如果存在殭屍檔案,可通過以下兩種方式釋放控制代碼清除殭屍檔案,以釋放磁碟空間。
重啟伺服器清除
重啟伺服器,系統會退出現有的進程,釋放調用的deleted檔案的控制代碼。
警告重啟伺服器可能會影響業務,請您選擇合適時間進行重啟。
通過kill命令清除
根據
lsof
命令列出的PID進程號(通常為第二列),使用kill
命令結束佔用這些檔案的服務進程。執行以下命令,列出PID進程號。
lsof | grep delete
根據您的業務情況,確保對應進程可以停止或者重啟,執行以下命令,停止佔用這些檔案的服務進程。
kill <進程號>
警告如果伺服器正在運行業務,可能會影響到業務,請謹慎操作。
掛載點被覆蓋
在排除了上述三個原因後,如果仍無法確定磁碟空間不足的原因,可能是由於掛載點被覆蓋所導致。您可以通過以下方法進行確認。
排查方法
運行以下命令,查看掛載資訊。
mount
回顯資訊如下所示。
可以看到有兩個裝置被掛載到了/mnt/device_vdc目錄下,所以該目錄可能存在掛載點覆蓋。
運行以下命令,查看當前分區掛載資訊。
df -h
回顯結果樣本如下,
解決方案
解決掛載點被覆蓋的問題,通常通過先取消磁碟分割掛載,再檢查原掛載目錄下的空間佔用情況。
運行以下命令,卸載檔案系統。 本樣本以卸載/mnt/device_vdc
為例,請您根據實際情況進行操作。
卸載檔案系統,這可能會導致您的應用服務中斷,請選擇您業務合適的時間進行。
sudo umount /mnt/device_vdc
取消磁碟分割的掛載後,需檢查原掛載目錄下的空間佔用情況,並根據具體情況採取相應的處置方案。
inotify watches達到上限
如果您在使用如tail -f
命令時遇到類似tail: cannot watch '...': No space left on device
的報錯,說明您的系統存在inotify watches
達到上限的情況,您可以通過提高系統的inotify watches
上限來規避這個問題。
排查方法
執行以下命令,查看inotify watches
當前的上限值。
cat /proc/sys/fs/inotify/max_user_watches
解決方案
執行以下命令,修改inotify watches的上限值。
sudo sysctl fs.inotify.max_user_watches=<新的上限值>
將<新的上限值>
替換為您希望設定的新的inotify watches上限值。
提升該上限值可能導致inotify佔用更多系統記憶體。因此,在修改上限值之前,請仔細考慮系統的記憶體和效能情況以及可能產生的影響。您可以執行man 7 inotify
命令瞭解更多關於inotify watches和相關設定的詳細資料。
相關文檔
如果您的磁碟空間經常不足或資料存放區需求急劇增加,建議根據業務情況對儲存方案進行最佳化。有關詳細資料,請參見以下最佳化建議。
如果您的磁碟空間儲存大量的圖片、視頻等檔案,且沒有高並發讀寫的情況,可以考慮使用Object Storage Service。OSS是一款海量、安全、低成本、高可靠的雲端儲存體服務,可以根據資料量的增加自動擴充儲存空間,無需手動擴容。您可以使用ossfs將OSS Bucket掛載到ECS執行個體上,應用程式無需修改代碼即可像操作本地檔案一樣操作OSS中的檔案。具體操作,請參見使用ossfs將OSS Bucket掛載到Linux系統的本地目錄。
如果您的業務情境對高並發讀寫和共用有要求,可以考慮使用Apsara File Storage NAS來隱藏檔。NAS提供了簡單的可擴充檔案儲存體以供與ECS配合使用,可提供高效能、高並發的共用儲存服務,可以根據資料量的增加自動擴充儲存空間,無需手動擴容。詳細操作,請參見NAS 快速入門(Linux)。
如果您在磁碟中儲存了大量記錄檔,可以考慮將日誌儲存到Log ServiceSLS,便於查詢日誌的同時,減少磁碟佔用。詳細操作,請參見Log Service_快速入門。