如果您的ECS執行個體在啟動過程中宕機,且產生了RIP:get_target_pstate_use_performance日誌,則可以參考本文提供的方案解決問題。
問題現象
您在啟動ECS執行個體的過程中,執行個體出現宕機,並且有類似於如下所示的調用棧:
[ 1.076899] divide error: 0000 [#1] SMP
[ 1.077669] Modules linked in:
[ 1.078302] CPU: 4 PID: 9 Comm: rcu_sched Not tainted 3.10.0-1127.19.1.el7.x86_64 #1
[ 1.079519] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 8f19b21 04/01/2014
[ 1.080724] task: ffff91c8fa111070 ti: ffff91c8fa11c000 task.ti: ffff91c8fa11c000
[ 1.081919] RIP: 0010:[<ffffffff85dc3089>] [<ffffffff85dc3089>] get_target_pstate_use_performance+0x29/0xc0
[ 1.083355] RSP: 0000:ffff91c8fa11fb40 EFLAGS: 00010006
[ 1.093192] Call Trace:
[ 1.093715] [<ffffffff85dc4081>] intel_pstate_update_util+0x161/0x310
[ 1.094550] [<ffffffff858e9523>] ? load_balance+0x1a3/0xa10
[ 1.095321] [<ffffffff858e4e87>] update_curr+0x127/0x1e0
[ 1.096123] [<ffffffff858e52a8>] dequeue_entity+0x28/0x5c0
[ 1.096894] [<ffffffff8586d3be>] ? kvm_sched_clock_read+0x1e/0x30
[ 1.097702] [<ffffffff858e5893>] dequeue_task_fair+0x53/0x660
[ 1.098490] [<ffffffff858debe5>] ? sched_clock_cpu+0x85/0xc0
[ 1.099266] [<ffffffff858d7a56>] deactivate_task+0x46/0xd0
問題原因
ECS執行個體在啟動的過程中,intel pstate驅動的current_pstate
頻率值會初始化為0。系統在進程切換時,如果系統負載有變化,則會調用intel pstate調節效能模式。此時intel pstate使用了current_pstate
的0值,進而導致系統出現除零錯誤。
解決方案
重要
在操作前,建議您為ECS執行個體建立快照備份資料,避免因誤操作造成的資料丟失。建立快照的具體操作,請參見建立快照。
建議您將作業系統核心版本升級到4.18或更高版本。