全部產品
Search
文件中心

:在ECS執行個體內刪除cgroup出現softlockup異常,如何處理?

更新時間:Feb 28, 2024

如果您在ECS執行個體中刪除cgroup時系統偶現softlockup異常,則可以參考本文提供的方案解決問題。

問題現象

在ECS執行個體內刪除容器時出現softlockup異常,併產生類似於如下所示的調用棧:

[3302742.447940] Kernel panic - not syncing: softlockup: hung tasks
[3302742.448677] CPU: 18 PID: 1 Comm: systemd Kdump: loaded Tainted: G OEL ------------ T 3.10.0-862.14.4.el7.x86_64 #1
[3302742.450167] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 8a46cfe 04/01/2014
[3302742.462123] [] mem_cgroup_reparent_charges+0x16d/0x3c0
[3302742.463243] [] mem_cgroup_css_offline+0x84/0x140
[3302742.464327] [] cgroup_destroy_locked+0xea/0x370
[3302742.465414] [] cgroup_rmdir+0x22/0x40
[3302742.466434] [] vfs_rmdir+0xdc/0x150
[3302742.467449] [] do_rmdir+0x1f1/0x220
[3302742.468470] [] ? ____fput+0xe/0x10
[3302742.469495] [] ? task_work_run+0xc0/0xe0
[3302742.470578] [] SyS_rmdir+0x16/0x20
[3302742.471628] [] system_call_fastpath+0x22/0x27

問題原因

當您在執行個體內刪除cgroup時,系統會迴圈把使用中的記憶體頁計算到上一層的cgroup中,如果cgroup佔用記憶體過大,系統處理時間則會變長。系統處理過程中沒有調度檢測點,從而導致系統出現softlockup異常。

解決方案

重要

在操作前,建議您為ECS執行個體建立快照備份資料,避免因誤操作造成的資料丟失。建立快照的具體操作,請參見建立快照

不同的作業系統版本,處理方式不同。具體說明如下:

  • CentOS:建議升級核心版本

    1. 運行以下命令,升級核心版本。

      yum update kernel
    2. 運行以下命令,重啟ECS執行個體。

      reboot
    3. 重啟後,查看核心版本是否大於等於3.10.0-1160。

      uname -r
  • Alibaba Cloud Linux:不會出現softlockup異常

  • 其他動作系統版本:建議手動升級核心版本至4.17以上