Pod异常问题排查SOP - 容器服务 Kubernetes 版 ACK

本文介绍关于Pod异常问题排查的诊断流程、排查方法、常见问题及对应的解决方案。

说明

如果您需要了解排查Pod问题常用的控制台界面，例如如何查看Pod状态、基础信息、配置、事件和日志，使用终端进入容器，启用Pod故障诊断等，可跳转至常用排查界面了解。

快速诊断流程

查看工作负载Pod异常状态，进入目标容器组详情页，单击事件页签，查看异常事件的对应描述信息。单击日志页签，查看最近发生的异常日志记录。

Pod持续处于调度中状态（Pending）

进入节点管理 > 节点，检查节点状态、内存及CPU使用率。检查并调整Pod的节点亲和性策略，包括节点标签、nodeSelector、nodeAffinity、污点和容忍等。更多异常场景，请参考调度问题。

镜像拉取失败（ImagePullBackOff/ErrImagePull）

在容器组详情页下方，选择容器页签检查镜像地址。登录Pod所在节点，使用crictl pull <镜像地址>或curl -v https://<镜像地址>验证与镜像仓库网络连通性。单击右上角YAML编辑，检查工作负载spec.imagePullSecrets指定的Secret是否存在且正确。更多异常场景，请参考镜像拉取问题。

Pod启动失败（CrashLoopBackOff）

因应用反复崩溃重启导致。在容器组详情页下方单击日志页签，勾选显示上个容器退出时的日志，会记录进程发生异常的原因。更多异常场景，请参考Pod启动失败排查。

Pod出现内存溢出状态（OOMKilled）

在容器组详情页下方单击日志页签，勾选显示上个容器退出时的日志，会记录OOM日志。确认应用是否存在内存泄漏或内存溢出（Java应用可优化-Xmx参数），按需调整应用的内存资源限制（resources.limits.memory）。更多异常场景，请参考OOMKilled。

如已配置存活检查，则Pod只会短暂停留在OOMKilled状态，然后自动重启。

完整诊断流程

如果Pod状态异常，可通过查看Pod的事件、Pod的日志、Pod的配置等信息确定异常原因。

排查流程导览

阶段一：调度问题

Pod未调度到节点

如果Pod长时间处于“未调度到节点”（Pending）状态，没有被安排到任何节点上运行，可能是由以下原因导致。

报错信息	说明	推荐的解决方案
`no nodes available to schedule pods.`	当前集群中无可用节点可供调度。	查看集群节点状态是否为NotReady。如果存在节点处于NotReady状态，则对问题节点进行检查和修复。检查Pod中是否声明了nodeSelector、nodeAffinity或污点容忍。若不存在亲和性策略，可以增加节点池中的节点数量。
`0/x nodes are available: x Insufficient cpu.` `0/x nodes are available: x Insufficient memory.`	集群中没有可用节点能够满足Pod所需的CPU或内存资源。	在节点页面查看容器组、CPU、内存的使用情况，确定集群的资源使用率。说明当某个节点的CPU和内存利用率维持在较低水平时，即便引入一个新Pod不会立即达到资源使用的上限，调度器也会谨慎考虑，以防该Pod的加入导致未来高峰时段节点资源紧张，避免因资源分配不当而引发的节点资源短缺问题。若集群中的CPU或内存已经耗尽，可参考如下方法处理。删除或减少不必要的Pod，请参见管理容器组（Pod）。根据自身业务情况，调整Pod的资源配置，请参见设置容器的CPU和内存资源上下限。您可以启用资源画像，获得容器Request和Limit的推荐配置。根据Pod声明的亲和性策略在集群中添加新的节点，请参见创建和管理节点池。升配节点，请参见升降配节点资源。
`x node(s) didn't match node selector.` `x node(s) didn't match pod affinity/anti-affinity.`	集群现有节点没有匹配Pod声明的节点亲和性（nodeSelector）要求或Pod亲和性（podAffinity和podAntiAffinity）要求。	检查并调整Pod的节点亲和性策略，包括节点标签、nodeSelector、nodeAffinity、污点和容忍等。检查并调整Pod的Pod亲和性策略，评估节点是否满足Pod的亲和性要求：如果Pod配置了podAffinity，则需要检查目标节点上是否有匹配的Pod存在；如果配置了podAntiAffinity，则需确认目标节点上没有不应共存的Pod。
`0/x nodes are available: x node(s) had volume node affinity conflict.`	Pod所使用的存储卷与待调度的节点之间存在亲和性冲突，云盘无法跨可用区挂载，导致调度失败。	若为静态PVC，希望Pod能够调度到与PV所在相同可用区的节点，需配置Pod的节点亲和性。若为动态PVC，需设置StorageClass的云盘的绑定模式为WaitForFirstConsumer，以便PV等到Pod已调度到节点后再创建，确保云盘被创建在Pod实际运行的节点所在的可用区。
`InvalidInstanceType.NotSupportDiskCategory`	ECS实例不支持挂载的云盘类型。	请参见实例规格族确认当前ECS支持的云盘类型。挂载时，将云盘类型更新为ECS实例当前支持的类型。
`0/x nodes are available: x node(s) had taints that the pod didn't tolerate.`	由于节点拥有Pod无法容忍的污点，导致Pod无法调度。	如果污点是由您手动添加，您可以删除非预期的污点。如果无法删除污点，可以为Pod配置相应的容忍，请参见污点和容忍、管理节点标签和污点。如果污点为系统自动添加，您可以参见下文解决对应的问题，并等待Pod重新调度。展开查看系统自行添加的污点 `node.kubernetes.io/not-ready`：节点未准备好，处于NotReady状态。 `node.kubernetes.io/unreachable`：节点控制器访问不到节点，相当于节点状况`Ready` 的值为`Unknown`。 `node.kubernetes.io/memory-pressure`：节点存在内存压力。 `node.kubernetes.io/disk-pressure`：节点存在磁盘压力。 `node.kubernetes.io/pid-pressure`：节点存在PID压力。 `node.kubernetes.io/network-unavailable`：节点网络不可用。 `node.kubernetes.io/unschedulable`：节点不可调度。
`0/x nodes are available: x Insufficient ephemeral-storage.`	节点临时存储容量不足。	检查Pod是否配置了临时存储卷的限制，即Pod YAML中`spec.containers.resources.request.ephemeral-storage`的取值。如果取值过高，超出了节点的实际可用容量，Pod会调度失败。执行`kubectl describe node \| grep -A10 Capacity`命令，查看各个节点上可用于临时存储的总容量。如果容量不足，可扩容节点磁盘或增加节点数量。
`0/x nodes are available: pod has unbound immediate PersistentVolumeClaims.`	Pod绑定PVC失败。	检查Pod所指定的PVC或PV是否已经创建，通过`kubectl describe pvc <pvc-name>` 或 `kubectl describe pv <pv-name>`命令查看PVC、PV的Event信息，进一步进行判断。更多信息，请参见存储FAQ-CSI。

Pod已调度到节点

如果Pod已经被调度到某个节点上但仍处于Pending状态，请参见下文解决。

判断Pod是否配置了hostPort：如果Pod配置了hostPort，那么每个节点上只能运行一个使用该hostPort的Pod实例。因此，Deployment或ReplicationController中Replicas值不能超过集群中的节点数。如果该端口被其他应用占用，将导致Pod调度失败。
hostPort会带来一些管理和调度上的复杂性，推荐您使用Service来访问Pod，请参见服务（Service）。
如果Pod没有配置hostPort，请参见下方步骤排查。
1. 通过kubectl describe pod <pod-name>命令查看Pod的Event信息，并解决对应的问题。Event可能会解释Pod启动失败的原因，例如镜像拉取失败、资源不足、安全策略限制、配置错误等。
2. Event中没有有效信息时，进一步查看该节点kubelet的日志，进一步排查Pod启动过程中存在的问题。您可以通过grep -i <pod name> /var/log/messages* | less命令搜索系统日志文件（/var/log/messages*）中包含指定Pod名称的日志条目。

阶段二：镜像拉取问题

ImagePullBackOff或ErrImagePull

Pod状态为ImagePullBackOff或ErrImagePull时，即表明拉取镜像失败。在这种情况下，请查看Pod事件（Event），并根据下方的信息排查问题。

报错信息

说明

推荐的解决方案

Failed to pull image "xxx": rpc error: code = Unknown desc = Error response from daemon: Get xxx: denied:

请求访问镜像仓库时被拒绝，创建Pod时未指定imagePullSecret。

检查工作负载YAML中spec.imagePullSecrets指定的Secret是否存在。

使用ACR时，可以使用免密插件拉取镜像，请参见使用免密组件拉取容器镜像。

Failed to pull image "xxxx:xxx": rpc error: code = Unknown desc = Error response from daemon: Get https://xxxxxx/xxxxx/: dial tcp: lookup xxxxxxx.xxxxx: no such host

通过HTTPS协议从指定的镜像仓库地址拉取镜像时，镜像地址解析失败。

检查Pod YAML中spec.containers.image配置的镜像仓库地址是否正确。如有误，需修改为正确地址。
如地址无误，进一步验证从Pod所在节点到镜像仓库的网络连接是否通畅。参见ECS远程连接方式概述登录到Pod所在节点，运行命令curl -kv https://xxxxxx/xxxxx/ 判断地址是否可以访问。如有报错，进一步判断是否存在网络配置、防火墙规则、DNS解析等网络访问问题。

Failed create pod sandbox: rpc error: code = Unknown desc = failed to create a sandbox for pod "xxxxxxxxx": Error response from daemon: mkdir xxxxx: no space left on device

节点磁盘空间不足。

参见ECS远程连接方式概述登录到Pod所在节点，运行df -h查看磁盘空间状态。如磁盘已满，请扩容磁盘，请参见步骤一：扩容云盘容量。

Failed to pull image "xxx": rpc error: code = Unknown desc = error pulling image configuration: xxx x509: certificate signed by unknown authority

第三方仓库使用了非知名或不安全的CA签署的证书。

建议第三方仓库使用CA签发的证书。
如果您使用的是私有镜像仓库，请参见使用私有镜像仓库创建应用。
如果无法更改，可酌情参考下面流程，配置允许节点从使用非安全证书的仓库中拉取和推送镜像。建议仅在测试环境中使用，可能会对节点其他Pod的运行产生影响。

展开查看详细步骤

控制台方式

通过控制台自定义节点池containerd参数

修改 containerd 配置不会对存量容器造成影响。为确保集群稳定性，请在业务低峰期操作。

登录容器服务管理控制台，在左侧导航栏选择集群列表。
在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择节点管理 > 节点池。
在节点池列表页面，单击目标节点池操作列下的> Containerd 配置。
仔细阅读当前页面上的注意事项，按照页面指引添加待配置的参数，指定目标节点，并设置批量配置策略，然后单击提交，完成相应操作。
可参见下方配置示例。
提交后，containerd配置将按批次对节点生效。执行需要一定时间，您可以在事件列表区域查看执行进度，并控制执行过程，例如暂停、继续、取消等。
您可以使用暂停功能对已升级的节点进行验证。执行暂停操作时，正在配置中的节点会继续完成执行；尚未执行的节点在任务继续前不会被执行自定义配置。
说明
- 如果有节点任务执行失败，可排查节点问题后单击继续，重新执行。
- 建议尽快完成自定义配置任务。处于暂停状态的任务将在7天后自动取消，相关的事件和日志信息也会被清理。

配置示例

为docker.io配置替换的镜像仓库	指定私有仓库跳过证书的认证	配置HTTP私有镜像仓库

命令行方式

为containerd创建证书目录，用于存放与特定镜像仓库相关的证书配置文件。
```
mkdir -p /etc/containerd/cert.d/xxxxx
```

配置containerd信任特定的非安全镜像仓库。

cat << EOF > /etc/containerd/cert.d/xxxxx/hosts.toml
   server = "https://harbor.test-cri.com"
   [host."https://harbor.test-cri.com"]
     capabilities = ["pull", "resolve", "push"]
     skip_verify = true
     # ca = "/opt/ssl/ca.crt"  # 或者上传ca证书
   EOF

修改Docker Daemon配置以添加非安全仓库。
```
vi /etc/docker/daemon.json
```
添加以下内容。其中需替换your-insecure-registry为目标私有仓库地址。
```
   {
     "insecure-registries": ["your-insecure-registry"]
   }
```

重启相关服务，使更新的配置生效。

systemctl restart systemd
systemctl restart docker

Failed to pull image "XXX": rpc error: code = Unknown desc = context canceled

操作取消，可能是由于镜像文件过大。Kubernetes默认设置了拉取镜像超时时间，如果一定时间内镜像下载没有任何进度更新，Kubernetes会认为此操作异常或处于无响应状态，主动取消该任务。

检查Pod YAML中配置的imagePullPolicy是否为IfNotPresent。
参见ECS远程连接方式概述登录到Pod所在节点，运行命令docker pull或ctr images pull判断镜像是否可以被拉取。

Failed to pull image "xxxxx": rpc error: code = Unknown desc = Error response from daemon: Get https://xxxxxxx: xxxxx/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)

无法连接镜像仓库，网络不通。

参见ECS远程连接方式概述登录到Pod所在节点，运行命令curl https://xxxxxx/xxxxx/判断地址是否可以访问。如有报错，进一步判断是否存在网络配置、防火墙规则、DNS解析等网络访问问题。
判断节点的公网策略是否正常，例如SNAT条目、绑定的弹性公网IP等配置。

Failed to pull image "xxxx:xxx": failed to pull and unpack image "xxxx:xxx": failed to resolve reference "xxxx:xxx": failed to do request: Head "xxxx:xxx": dial tcp xxx.xxx.xx.x:xxx: i/o timeout

拉取海外源镜像时，因网络问题导致的连接超时。

受运营商网络的影响，在ACK集群中拉取Docker Hub海外源镜像可能出现拉取失败的情况。可采用下列解决方案：

通过容器镜像服务ACR订阅海外源镜像，请参见订阅海外源镜像。
创建全球加速GA（Global Accelerator）实例，使用其覆盖全球的网络加速服务直接拉取海外源镜像，请参见使用GA实现ACK跨域加速拉取容器镜像。

Too Many Requests.

DockerHub对用户拉取容器镜像的请求设定了上限。

将镜像上传至容器镜像服务ACR，从ACR镜像仓库中拉取镜像。

一直显示Pulling image

可能触发了kubelet的镜像拉取限流机制。

通过自定义节点池kubelet配置功能调整registryPullQPS（镜像仓库的QPS上限）和registryBurst（突发性镜像拉取的个数上限）。

阶段三：启动问题

Pod处于init状态

错误信息	说明	推荐的解决方案
停留在`Init:N/M`状态	该Pod包含M个Init容器，其中N个已经启动完成，但仍有M-N个Init容器未启动成功。	通过`kubectl describe pod -n <ns> <pod name>`命令查看Pod的事件，确认当前Pod中未启动的Init容器是否存在异常。通过`kubectl logs -n <ns> <pod name> -c <container name>`命令查看Pod中未启动的Init容器的日志，通过日志内容排查问题。查看Pod的配置，例如检查健康检查配置，进一步确认未启动的Init容器配置是否正常。关于Init容器的更多信息，请参见调试Init容器。
停留在`Init:Error`状态	Pod中的Init容器启动失败。
停留在`Init:CrashLoopBackOff`状态	Pod中的Init容器启动失败并处于反复重启状态。

Pod创建中（Creating）

错误信息	说明	推荐的解决方案
`failed to allocate for range 0: no IP addresses available in range set: xx.xxx.xx.xx-xx.xx.xx.xx`	Flannel网络插件设计原因，是预期内现象。	升级Flannel组件版本至v0.15.1.11-7e95fe23-aliyun及以上版本，请参见Flannel。
	集群低于1.20版本时，如果发生Pod反复重启、CronJob中的Pod在短时间内完成任务并退出等事件，可能会导致IP地址泄漏。	升级集群版本至1.20及以上，推荐使用最新版本的集群，请参见手动升级集群。
	containerd、runC存在的缺陷。	参见为什么Pod无法正常启动，且报错no IP addresses available in range？进行临时紧急处理。
`error parse config, can't found dev by mac 00:16:3e:01:c2:e8: not found`	Pod所在的节点中，Terway网络插件维护的用于追踪和管理网络接口ENI的内部数据库状态与实际的网络设备配置之间存在数据不一致，造成ENI分配失败。	网卡在系统中加载是异步的。在CNI配置过程中，网卡可能仍在加载中，可能导致CNI自动重试。这种情况不会影响ENI最终的分配，请通过Pod最终状态判断操作是否成功。如果Pod长时间没有创建成功，仍然提示上述错误，通常是由于ENI挂载时高阶内存不足导致驱动加载失败。请通过重启ECS实例来解决，请参见重启实例。
`cmdAdd: error alloc ip rpc error: code = DeadlineExceeded desc = context deadline exceeded` `cmdAdd: error alloc ip rpc error: code = Unknown desc = error wait pod eni info, timed out waiting for the condition`	可能是Terway向vSwitch申请IP时失败。	查看Pod所在节点中Terway组件Pod的Terway容器日志，查看ENI分配过程。执行`kubectl logs -n kube-system <terwayPodName > -c terway \| grep <podName>`命令，查看Terway Pod中Terway网卡的ENI情况，获取到申请IP操作的Request ID以及OpenAPI的报错信息。根据Request ID和报错信息进一步排查失败的原因。

Pod启动失败（CrashLoopBackOff）

错误信息	说明	推荐的解决方案
日志中存在`exit(0)`。		登录异常工作负载所在的节点。执行`docker ps -a \| grep $podName`命令，如果容器中无持续进程，会出现`exit (0)`。
Pod事件中存在`Liveness probe failed: ...`。	存活探针（Liveness Probe）检测失败，应用重启。	存活检查配置：进入目标工作负载的编辑页。确认后端服务提供的健康检查方法（如/healthz）和端口与配置的一致。增加的延迟探测时间（秒），确保应用已启动完毕才开始进行存活检查。可临时关闭存活检查来测试探针。排查业务异常：结合Pod事件和日志（勾选显示上个容器退出时的日志）排查。
Pod事件中出现`Startup probe failed: ...`信息。	启动探针（Startup Probe）检测失败，应用重启。	启动检测配置：进入目标工作负载的编辑页。确认后端服务提供的健康检查方法、端口与配置的一致。如启动时间较长，可增加不健康阈值，避免过早判定为失败而自动重启。可临时关闭启动探测来测试探针。排查业务异常：结合Pod事件和日志（勾选显示上个容器退出时的日志）排查。
Pod日志中存在`no left space`。	磁盘空间不足。	参见步骤一：扩容云盘容量扩容磁盘。清理不必要的镜像，释放磁盘空间，并按需配置imageGCHighThresholdPercent，控制节点上触发镜像垃圾回收（Image GC）的阈值。
启动失败，无Event信息。	Pod中声明的Limit资源少于实际所需资源时，会导致启动容器失败。	检查Pod的资源配置是否正确。您可以启用资源画像，获得容器Request和Limit的推荐配置。
Pod日志中出现`Address already in use`。	同一Pod中的容器端口存在冲突。	检查Pod是否配置了`hostNetwork: true`，这意味着Pod内的容器会直接与宿主机共享网络接口和端口空间。如果无需使用，请改为`hostNetwork: false`。如果Pod需要使用`hostNetwork: true`，请配置Pod的反亲和性，确保同一副本集中的Pod被调度到不同节点。检查并确保不存在也不会有两个或多个具有相同端口需求的Pod运行在同一节点上。
Pod日志中出现`container init caused \"setenv: invalid argument\"": unknown`。	工作负载中挂载了Secret，但Secret对应的值没有进行Base64加密。	通过控制台创建Secret，Secret对应的值会自动进行Base64加密。具体操作，请参见管理保密字典。通过YAML创建Secret，并执行`echo -n "xxxxx" \| base64`命令手动对密钥值进行Base64加密。
自身业务问题。		查看Pod日志，通过日志内容排查问题。

Pod处于黄色Running状态

报错信息	说明	推荐的解决方案
Pod事件中出现`Readiness probe failed: ...`信息。	就绪探针（Readiness Probe）检测失败，目标Pod无法接入流量。	就绪检查配置：进入目标工作负载的编辑页。确认后端服务提供的健康检查方法（如/healthz）和端口与配置的一致。如启动时间较长，可增加不健康阈值，避免过早判定为失败。可临时关闭就绪检查来测试探针。排查业务异常：结合Pod事件和日志（勾选显示上个容器退出时的日志）排查。
Pod状态同上。Pod事件中出现`Startup probe failed: ...`信息。	启动探针（Startup Probe）检测失败，目标Pod无法接入流量。	同上，配置合适的启动探测项。

阶段四：Pod运行问题

OOMKilled

当集群中的容器使用超过其限制的内存，容器可能会被终止，触发OOM（Out Of Memory）事件，导致容器异常退出。关于OOM事件，请参见为容器和Pod分配内存资源。

若被终止的进程为容器的阻塞进程，可能会导致容器异常重启。
若出现OOM异常问题，在控制台的Pod详情页面单击事件页签将展示OOM事件pod was OOM killed. node:XXX pod:XXX namespace:XXX。
若集群配置了集群容器副本异常报警，OOM事件出现时会收到相关报警信息，请参见容器副本异常报警规则集。

OOM级别	说明	推荐的解决方案
节点级	查看Pod所在节点的内核日志`/var/log/messages`，日志中存在Killed Process，但不存在cgroup日志，表明OOM为OS级别。	扩容节点内存资源或将工作负载分散到更多节点，详情请参见升降配节点资源、调度应用至指定节点。排查节点上内存占用高的Pod，并为其设置合理的memory limits。
CGroup级	查看Pod所在节点的内核日志`/var/log/messages`，日志中存在类似`Task in /kubepods.slice/xxxxx killed as a result of limit of /kubepods.slice/xxxx`的报错信息，表明OOM为cgroup级别。	根据业务需求适当提升 Pod 的memory limits，建议实际用量不超过 limits 的 80%。相关操作，请参见管理容器组（Pod）、升降配节点资源。启用资源画像，获得容器requests/limits的推荐配置。

更多OOM现象出现的原因及解决方案，请参见出现OOM Killer的原因及解决方案。

Terminating

可能原因	说明	推荐的解决方案
节点存在异常，处于NotReady状态。		处于NotReady状态的节点恢复正常后会被自动删除。
Pod配置了Finalizers。	如果Pod配置了Finalizers，Kubernetes会在删除Pod之前执行Finalizers指定的清理操作。如果相关的清理操作没有正常响应，Pod将保持在Terminating状态。	通过`kubectl get pod -n <ns> <pod name> -o yaml`查看Pod的Finalizers配置，进一步排查异常原因。
Pod的preStop配置异常。	如果Pod配置了preStop，Kubernetes会在容器被终止之前执行preStop指定的操作。Pod正处于终止流程的preStop阶段时，Pod将处于Terminating状态。	通过`kubectl get pod -n <ns> <pod name> -o yaml`查看Pod的preStop配置，进一步排查异常原因。
Pod配置了优雅退出时间。	如果Pod配置了优雅退出时间（`terminationGracePeriodSeconds`），Pod收到终止命令后（例如`kubectl delete pod <pod_name>`命令）会进入Terminating状态。等待`terminationGracePeriodSeconds`设定的时间后，或容器提前退出后，Kubernetes才认为Pod已经成功关闭。	等待容器优雅退出后，Kubernetes将自动删除Pod。
容器无响应。	发起停止或删除Pod的请求后，Kubernetes会向Pod内的容器发送`SIGTERM`信号。如果容器在终止过程中没有正确响应`SIGTERM`信号，Pod可能会停留在Terminating状态。	使用`kubectl delete pod <pod-name> --grace-period=0 --force`强制删除，释放Pod资源。检查Pod所在节点的containerd或Docker日志，进一步进行排查。

Evicted

可能原因	说明	推荐的解决方案
节点存在资源压力，包括内存不足、磁盘空间不足等，引发kubelet主动驱逐节点上的一个或者多个Pod，以回收节点资源。	可能存在内存压力、磁盘压力、Pid压力等。通过`kubectl describe node <node name> \| grep Taints`命令查询，显示如下内容。内存压力：带有污点`node.kubernetes.io/memory-pressure`。磁盘压力：带有污点`node.kubernetes.io/disk-pressure`。 Pid压力：带有污点`node.kubernetes.io/pid-pressure`。 Pod状态如下： `Evicted`。 `ContainerStatusUnknown`，且Pod YAML中的`reason`字段显示`Evicted`。	内存压力：根据自身业务情况，调整Pod的资源配置，管理容器组（Pod）。升配节点，请参见升降配节点资源。磁盘压力：定时清理节点上的业务Pod日志，防止磁盘空间被耗尽。为节点进行磁盘扩容，请参见步骤一：扩容云盘容量。 Pid压力：根据自身业务情况，调整Pod的资源配置，请参见进程ID约束与预留。
发生了非预期的驱逐行为。	待运行Pod的节点被手动打上了NoExecute的污点，导致出现非预期的驱逐行为。	通过`kubectl describe node <node name> \| grep Taints`命令检查节点是否被打上了NoExecute污点。如是，请删除。
未按照预期流程执行驱逐。	`--pod-eviction-timeout`：当节点宕机时间超过设置时间后，开始驱逐宕机节点上的Pod，默认为5min。 `--node-eviction-rate`：每秒从节点上驱逐的Pod数量。默认为0.1，即每10s至多从一个节点上驱逐Pod。 `--secondary-node-eviction-rate`：第二档的节点驱逐速率。当集群中宕机节点过多时，节点驱逐速率会降低至第二档，默认值为0.01。 `--unhealthy-zone-threshold`：可用区的不健康阈值，默认为0.55，即当宕机的节点数量超过总节点数的55%时，该可用区被判定为不健康。 `--large-cluster-size-threshold`：集群的大规模阈值，默认为50，即当集群节点数量超过50时判定集群为大规模集群。	在小规格的集群（集群节点数小于等于50个节点）中，如果故障的节点大于总节点数的55%，实例的驱逐会被停止，更多信息请参见节点驱逐速率限制。
未按照预期流程执行驱逐。		在大规模集群中（集群节点数大于50），如果集群中不健康的节点数量占总节点数的比例超过了预设的阈值`--unhealthy-zone-threshold`（默认为0.55），驱逐速率由`--secondary-node-eviction-rate`控制（代表每分钟驱逐节点上Pod的最大比例），默认值为0.01。更多信息，请参见节点驱逐速率限制。
容器被驱逐后仍然频繁调度到原节点。	节点驱逐容器时会根据节点的资源使用率进行判断，而容器的调度规则是根据节点上的“资源分配量”进行判断，被驱逐的Pod有可能被再次调度到这个节点，从而出现频繁调度到原节点的现象。	根据集群节点的可分配资源检查Pod的资源Request请求配置是否合理。如需调整，请参见设置容器的CPU和内存资源上下限。您可以启用资源画像，获得容器Request和Limit的推荐配置。

Completed

Completed状态下，Pod中容器的启动命令已执行完毕，容器中的所有进程均已成功退出。Completed状态通常适用于Job、Init容器等。

常见问题

Pod状态为Running但没正常工作

如果您的业务YAML存在问题，Pod可能会处于Running状态但没有正常工作。您可以参见以下流程解决。

查看Pod的配置，确定Pod中容器的配置是否符合预期。
使用以下方法，排查YAML配置中的某一个Key是否存在拼写错误。
创建Pod时，如果YAML中的某个Key拼写错误（例如将command拼写为commnd），集群会忽略该错误并使用该YAML成功创建资源。但在容器运行过程中，系统无法执行YAML文件中指定的命令。
下文以command拼写成commnd为例，介绍拼写问题的排查方法。
1. 在执行kubectl apply -f命令前为其添加--validate，然后执行kubectl apply --validate -f XXX.yaml 命令。
  如拼写存在错误，会提示报错XXX] unknown field: commnd XXX] this may be a false alarm, see https://gXXXb.XXX/6842pods/test。
2. 执行以下命令，将输出结果的pod.yaml与您创建Pod使用的YAML进行对比。
  说明
  [$Pod]为异常Pod的名称，您可以通过kubectl get pods命令查看。
```
  kubectl get pods [$Pod] -o yaml > pod.yaml
```
  - pod.yaml文件比您创建Pod所使用的文件行数更多，表明已创建的Pod符合预期。
  - 如果您创建Pod的YAML代码行不存在于pod.yaml文件中，表明YAML中存在拼写问题。
查看Pod的日志，通过日志内容排查问题。
通过终端进入容器，查看容器内的本地文件是否符合预期。

Pod访问数据库概率性网络中断

针对ACK集群中Pod访问数据库有概率性网络中断的问题，可以按照以下步骤进行排查。

1、检查Pod

查看目标集群中该Pod的事件记录，检查是否存在连接不稳定的异常事件，例如网络异常、重启事件、资源不足等。
查看Pod的日志输出，确定是否有与数据库连接相关的错误信息，例如超时、认证失败或者重连机制触发等。
查看Pod的CPU和内存使用情况，避免资源耗尽导致应用程序或数据库驱动程序异常退出。
查看Pod的资源Request和Limit配置，确保Pod分配了足够的CPU和内存资源。

2、检查节点

查看节点的资源使用情况，确认是否有内存、磁盘等资源不足等情况。具体操作，请参见监控节点。
测试节点与目标数据库之间是否出现概率性网络中断。

3、检查数据库

检查数据库的状态和性能指标，是否出现重启或性能瓶颈。
查看异常连接数和连接超时设置，并根据业务需求进行调整。
检查数据库日志是否有相关断开连接的记录。

4、检查集群组件状态

集群组件异常会影响Pod与集群内其他组件的通信。使用如下命令，检查ACK集群组件状态。

kubectl get pod -n kube-system  # 查看组件Pod状态。

同时检查网络组件：

CoreDNS组件：检查组件状态和日志，确保Pod能正常解析数据库服务的地址。
Flannel插件：查看kube-flannel组件的状态和日志。
Terway插件：查看terway-eniip组件的状态和日志。

5、分析网络流量

您可以使用 tcpdump 来抓包并分析网络流量，以帮助定位问题的原因。

获取Pod信息与节点信息：
使用以下命令获取指定命名空间中的Pod信息及其所在节点：
```
kubectl  get pod -n [namespace] -o wide 
```

登录到目标节点，使用以下命令查看容器PID。

containerd（1.22以上集群）

执行以下命令查看容器CONTAINER。

crictl ps |grep <Pod名称关键字>

预期输出：

CONTAINER           IMAGE               CREATED             STATE                      
a1a214d2*****       35d28df4*****       2 days ago          Running

使用CONTAINER ID参数，执行以下命令查看容器PID

crictl inspect a1a214d2***** |grep -i PID

预期输出：

    "pid": 2309838,    # 目标容器的PID进程号。
            "pid": 1
            "type": "pid"

Docker（1.22及以下集群）

执行以下命令查看容器CONTAINER ID。

docker ps |grep <pod名称关键字>

预期输出：

CONTAINER ID        IMAGE                  COMMAND     
a1a214d2*****       35d28df4*****          "/nginx

使用CONTAINER ID参数，执行以下命令查看容器PID。

docker inspect  a1a214d2***** |grep -i PID

预期输出：

            "Pid": 2309838,  # 目标容器的PID进程号。
            "PidMode": "",
            "PidsLimit": null,

执行抓包命令。
使用获取到的容器PID，执行以下命令，捕获Pod与目标数据库之间的网络通信数据包。
```
nsenter -t <容器PID> tcpdump -i any -n -s 0 tcp and host <数据库IP地址> 
```
使用获取到的容器PID，执行以下命令，捕获Pod与宿主机之间的网络通信数据包。
```
nsenter -t <容器PID> tcpdump -i any -n -s 0 tcp and host <节点IP地址>
```
执行以下命令，捕获宿主机与数据库之间的网络通信数据包。
```
tcpdump -i any -n -s 0 tcp and host <数据库IP地址> 
```

6、优化业务应用程序

在业务应用程序中实现数据库连接的自动重连机制，确保数据库发生切换或迁移时，应用程序能够自动恢复连接，无需人工干预。
使用持久化的长连接而非短连接来与数据库通信。长连接能显著降低性能损耗和资源消耗，提高系统整体效率。

常用排查界面

您可以登录容器服务管理控制台，进入集群的详情页面，排查Pod可能存在的问题。

操作	控制台界面
检查Pod的状态	在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择工作负载 > 容器组。在容器组页面左上角选择Pod所在的命名空间，查看Pod状态。若状态为Running，表明Pod运行正常。若状态不为Running，表明Pod状态异常，请参见本文处理。
检查Pod的基础信息	在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择工作负载 > 容器组。在容器组页面左上角选择Pod所在的命名空间，然后单击目标Pod名称或者目标Pod右侧操作列下的详情，查看Pod的名称、镜像、Pod IP、所在节点等详细信息。
检查Pod的配置	在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择工作负载 > 容器组。在容器组页面左上角选择Pod所在的命名空间，然后单击目标Pod名称或者目标Pod右侧操作列下的详情。在Pod详情页面右上角单击编辑，查看Pod的YAML文件和详细配置。
检查Pod的事件	在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择工作负载 > 容器组。在容器组页面左上角选择Pod所在的命名空间，然后单击目标Pod名称或者目标Pod右侧操作列下的详情。在Pod详情页面下方单击事件页签，查看Pod的事件。说明 Kubernetes默认保留最近1小时的事件，若需保存更长时间的事件，请参见创建并使用K8s事件中心。
查看Pod的日志	在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择工作负载 > 容器组。在容器组页面左上角选择Pod所在的命名空间，然后单击目标Pod名称或者目标Pod右侧操作列下的详情。在Pod详情页面下方单击日志页签，查看Pod的日志。说明 ACK集群集成了日志服务SLS。您可在集群中启用SLS，快速采集集群的容器日志，请参见采集ACK集群容器日志。
检查Pod的监控	在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择运维管理 > Prometheus 监控。在Prometheus监控页面，单击集群监控概览页签，选择查看Pod的CPU、内存、网络I/O等监控大盘。说明 ACK集群集成了阿里云Prometheus。您可以在集群中快速启用阿里云Prometheus，以实时监控集群和容器的健康状况，并查看可视化的Grafana监控数据大盘，请参见接入与配置阿里云Prometheus监控。
使用终端进入容器，进入容器内部查看本地文件等信息	在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择工作负载 > 容器组。在容器组页面，单击目标容器组右侧操作列下的终端。
启用Pod故障诊断	在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择工作负载 > 容器组。在容器组页面，单击目标容器组右侧操作列下的诊断，对该容器组进行故障诊断，根据诊断结果解决问题。说明容器智能运维平台提供了一键故障诊断能力，辅助您定位集群中出现的问题，请参见使用集群诊断。

集群中的Pod被异常删除

问题现象及原因：集群里 Completed 的 Pod 数量较多时，KCM（kube-controller-manager）为了避免无用的 Pod 数量过多，影响各类控制器效率，会在数量超过12500个后清理一下无用的 Pod。具体对应的 KCM 配置参数为--terminated-pod-gc-threshold，请参考社区 KCM 参数文档。

处理建议：定期清理集群中Completed状态的Pod，防止数量过多，影响各类控制器效率。