當您的業務是使用Java開發,且設定的JVM堆空間過小時,程式會發生OOM(Out Of Memory)的問題。此時您可以使用CNFS(Container Network File System)作為記錄日誌的載體,掛載到容器內相應目錄中,當JVM發生OOM時,CNFS可以將日誌記錄到相應的目錄裡。本文介紹如何使用CNFS自動收集異常退出的JVM轉儲檔案。
前提條件
已建立Kubernetes叢集,且儲存外掛程式選擇為CSI。具體操作,請參見建立ACK託管叢集。
已建立Container Registry企業版執行個體。具體操作,請參見建立企業版執行個體。
已使用CNFS託管NAS檔案系統。具體操作,請參見通過CNFS管理NAS檔案系統(推薦)。
背景資訊
阿里雲Container Service使用容器網路檔案系統CNFS,將阿里雲的檔案儲存體抽象為一個K8s對象(CRD)進行獨立管理,包括建立、刪除、描述、掛載,監控及擴容等營運操作。更多資訊,請參見容器網路檔案系統CNFS概述。
阿里雲Container RegistryACR(Alibaba Cloud Container Registry)是面向容器鏡像、Helm Chart等符合OCI標準的雲原生製品安全託管及高效分發平台。更多資訊,請參見什麼是Container RegistryACR。
注意事項
Java設定的最大Heap值(Xmx)應小於Pod Memory的Limit值,防止JVM未發生OOM,但Pod發生OOM的情況。
在使用Java轉儲時,建議建立個新的CNFS,將業務使用的CNFS與Java轉儲的CNFS分開,防止.hprof檔案過大,轉儲時佔用大量業務資源,影響業務。
操作步驟
您可以使用registry.cn-hangzhou.aliyuncs.com/acs1/java-oom-test:v1.0鏡像作為類比OOM的Java程式,用於觸發JVM的OOM。
關於如何構建鏡像,請參見使用企業版執行個體構建鏡像。
使用以下樣本,建立一個名稱為java-application的Deployment。
本樣本在啟動Java程式Mycode時,設定申請的堆大小為80 MB,堆轉儲的目錄為/mnt/oom/logs。當JVM的堆大小不滿足時,捕獲HeapDumpOnOutOfMemoryError錯誤。
cat << EOF | kubectl apply -f - apiVersion: apps/v1 kind: Deployment metadata: name: java-application spec: selector: matchLabels: app: java-application template: metadata: labels: app: java-application spec: containers: - name: java-application image: registry.cn-hangzhou.aliyuncs.com/acs1/java-oom-test:v1.0 #本文樣本程式的鏡像地址。 imagePullPolicy: Always env: #定義兩個索引值:POD_NAME為metadata.name,POD_NAMESPACE為metadata.namespace。 - name: POD_NAME valueFrom: fieldRef: apiVersion: v1 fieldPath: metadata.name - name: POD_NAMESPACE valueFrom: fieldRef: apiVersion: v1 fieldPath: metadata.namespace args: - java #執行命令。 - -Xms80m #堆記憶體的最小Heap值。 - -Xmx80m #堆記憶體的最大Heap值。 - -XX:HeapDumpPath=/mnt/oom/logs #發生OOM時,堆記憶體轉儲的路徑。 - -XX:+HeapDumpOnOutOfMemoryError #捕獲堆發生OOM的錯誤。 - Mycode #執行程式。 volumeMounts: - name: java-oom-pv mountPath: "/mnt/oom/logs" #容器內部使用/mnt/oom/logs做為掛載目錄。 subPathExpr: $(POD_NAMESPACE).$(POD_NAME) #使用$(POD_NAMESPACE).$(POD_NAME)作為建立出子目錄,將OOM轉儲檔案產生到子目錄中。 volumes: - name: java-oom-pv persistentVolumeClaim: claimName: cnfs-nas-pvc #使用CNFS的PVC,名稱為cnfs-nas-pvc。 EOF
通過Container Service管理主控台的事件中心,查看到該Pod發生了Back-off restarting的警示事件,說明java-application應用發生了OOM。
在控制台左側導覽列,單擊叢集。
在叢集列表頁面,單擊目的地組群名稱或者目的地組群右側操作列下的詳情。
在叢集管理頁左側導覽列中,選擇 。
由於NAS目前沒有瀏覽、上傳、下載檔案的功能,您可以使用File Browser作為Web端的訪問工具。首先將NAS的掛載點掛載到File Browser的rootDir上,然後通過
kubectl port-forward
命令,將File Browser的容器連接埠映射到本地,再通過瀏覽器訪問存放在NAS上的檔案。使用以下模板,建立File Browser的Deployment和File Browser需要使用的ConfigMap,預設開啟80連接埠。
cat << EOF | kubectl apply -f - apiVersion: v1 data: .filebrowser.json: | { "port": 80 } kind: ConfigMap metadata: labels: app.kubernetes.io/instance: filebrowser app.kubernetes.io/name: filebrowser name: filebrowser namespace: default --- apiVersion: apps/v1 kind: Deployment metadata: labels: app.kubernetes.io/instance: filebrowser app.kubernetes.io/name: filebrowser name: filebrowser namespace: default spec: progressDeadlineSeconds: 600 replicas: 1 revisionHistoryLimit: 10 selector: matchLabels: app.kubernetes.io/instance: filebrowser app.kubernetes.io/name: filebrowser template: metadata: labels: app.kubernetes.io/instance: filebrowser app.kubernetes.io/name: filebrowser spec: containers: - image: docker.io/filebrowser/filebrowser:v2.18.0 imagePullPolicy: IfNotPresent name: filebrowser ports: - containerPort: 80 name: http protocol: TCP resources: {} securityContext: {} terminationMessagePath: /dev/termination-log terminationMessagePolicy: File volumeMounts: - mountPath: /.filebrowser.json name: config subPath: .filebrowser.json - mountPath: /db name: rootdir - mountPath: /rootdir name: rootdir dnsPolicy: ClusterFirst restartPolicy: Always schedulerName: default-scheduler securityContext: {} terminationGracePeriodSeconds: 30 volumes: - configMap: defaultMode: 420 name: filebrowser name: config - name: rootdir persistentVolumeClaim: claimName: cnfs-nas-pvc EOF
預期輸出:
configmap/filebrowser unchanged deployment.apps/filebrowser configured
將File Browser的80連接埠轉寄到本地。
kubectl port-forward deployment/filebrowser 8080:80
預期輸出:
Forwarding from 127.0.0.1:8080 -> 80 Forwarding from [::1]:8080 -> 80
開啟瀏覽器,在地址欄輸入127.0.0.1:8080,可以看到File Browser的登入介面,輸入預設帳號(admin)和密碼(admin),進入到容器內部。
由於File Browser將名稱為cnfs-nas-pvc的PVC掛載到rootDir下,雙擊rootDir進入到NAS掛載點。
執行結果
在File Browser中可以看到名稱為default.java-application-76d8cd95b7-prrl2的目錄,這個目錄是java-application的subPathExpr: $(POD_NAMESPACE).$(POD_NAME)
作為規則產生的目錄。
然後進入此目錄,可以看到目錄中的轉儲檔案java_pid1.hprof。如果您需要定位到程式發生OOM的程式碼數,可以將java_pid1.hprof下載到本地,通過MAT(Eclipse Memory Analyzer Tools)進一步分析JVM堆棧資訊。