全部產品
Search
文件中心

Elastic Compute Service:ECS執行個體宕機併產生“Objects remaining in kmalloc”警示日誌,如何處理?

更新時間:Jul 04, 2024

如果您在ECS執行個體內使用memory cgroup kmem功能時核心存在Objects remaining in kmalloc警示日誌,且執行個體出現宕機,則可以參考本文提供的方案解決問題。

問題現象

當您在ECS執行個體內使用memory cgroup kmem功能時,核心有類似於如下所示的警示日誌,且執行個體出現了宕機。

[80569.393775] BUG kmalloc-256(15:94ef869ce655ebab64b08cd78ee00d16c20efd5737493b48293de41fe41b04a0) (Tainted: P    B   W  OE  ------------ T):
Objects remaining in kmalloc-256(15:94ef869ce655ebab64b08cd78ee00d16c20efd5737493b48293de41fe41b04a
[80569.397756] -----------------------------------------------------------------------------
[80569.397756]
[80569.400724] INFO: Slab 0xffffea0001e94a00 objects=32 used=1 fp=0xffff88007a528000 flags=0x1fffff00004080
[80569.402702] CPU: 21 PID: 26626 Comm: dockerd Tainted: P    B   W  OE  ------------ T 3.10.0-693.2.2.el7.x86_64 #1
[80569.404898] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 8f19b21 04/01/2014
[80569.406747]  ffffea0001e94a00 000000004eb9a19f ffff883afee53aa0 ffffffff816a3db1
[80569.408833]  ffff883afee53b78 ffffffff811dbf54 ffffffff00000020 ffff883afee53b88
[80569.410731]  ffff883afee53b38 656a624f8190fff8 616d657220737463 6e6920676e696e69
[80569.412630] Call Trace:
[80569.414005]  [<ffffffff816a3db1>] dump_stack+0x19/0x1b
[80569.415627]  [<ffffffff811dbf54>] slab_err+0xb4/0xe0
[80569.417204]  [<ffffffff811e0623>] ? __kmalloc+0x1e3/0x230
[80569.420419]  [<ffffffff811e1939>] kmem_cache_close+0x149/0x2e0
[80569.422006]  [<ffffffff811e1ae4>] __kmem_cache_shutdown+0x14/0x80
[80569.423606]  [<ffffffff811a6874>] kmem_cache_destroy+0x44/0xf0
[80569.425149]  [<ffffffff811f6019>] kmem_cache_destroy_memcg_children+0x89/0xb0
[80569.426800]  [<ffffffff811a6849>] kmem_cache_destroy+0x19/0xf0
[80569.428309]  [<ffffffff8123b18e>] bioset_free+0xce/0x110
[80569.431306]  [<ffffffffc06d0b43>] dm_destroy+0x13/0x20 [dm_mod]
[80569.432803]  [<ffffffffc06d69be>] dev_remove+0x11e/0x180 [dm_mod]
[80569.435851]  [<ffffffffc06d7015>] ctl_ioctl+0x1e5/0x500 [dm_mod]
[80569.437363]  [<ffffffffc06d7343>] dm_ctl_ioctl+0x13/0x20 [dm_mod]
[80569.438882]  [<ffffffff8121524d>] do_vfs_ioctl+0x33d/0x540
[80569.443291]  [<ffffffff812154f1>] SyS_ioctl+0xa1/0xc0
[80569.446228]  [<ffffffff816b5009>] system_call_fastpath+0x16/0x1b

問題原因

您使用memory cgroup kmem功能的過程中,kmem_cache_destroy在銷毀kmem_cache時,會先刪除memcg cache再檢查refcount是否為0。由於refcount不為0,因此可能存在其他合法任務嘗試通過當前kmem_cachememcg cache分配slab,進而導致race觸發宕機。

解決方案

重要

在操作前,建議您為ECS執行個體建立快照備份資料,避免因誤操作造成的資料丟失。建立快照的具體操作,請參見建立快照

建議您在ECS執行個體內,統一關閉memory cgroup kmem功能。操作步驟如下:

  1. 運行以下命令,開啟/etc/default/grub檔案。

    vim /etc/default/grub
  2. i鍵進入編輯模式,在GRUB_CMDLINE_LINUX中添加以下配置資訊。

    cgroup.memory=nokmem

    OS

  3. Esc鍵退出編輯模式,並輸入:wq後按Enter鍵,儲存退出檔案。

  4. 運行以下命令,更新GRUB。

    grub2-mkconfig -o /boot/grub2/grub.cfg
  5. 運行以下命令,重啟ECS執行個體。

    reboot

如果您的作業系統無法通過命令列(cmdline)關閉memory cgroup kmem,則建議您在ECS執行個體內的任何程式均不配置memory.kmem.limit_in_bytes的值。即可保證memory cgroup kmem功能未開啟。