本文以開來源資料集fashion-mnist任務為例,介紹開發人員如何利用雲原生AI套件,在ACK叢集運行深度學習任務,最佳化分布式訓練效能,調試模型效果,並最終把模型部署到ACK叢集中。
背景資訊
雲原生AI套件包括一系列可單獨部署的組件(K8s Helm Chart),輔助AI工程加速。
雲原生AI套件的使用者角色包括:管理員和開發人員。
管理員:負責系統管理使用者及其許可權,分配叢集資源,配置外部儲存,管理資料集,並通過叢集大盤觀測叢集使用方式。
開發人員:主要使用叢集資源提交任務,開發人員需要由管理員建立並分配許可權,之後便可以選擇使用Arena命令列、Jupyter Notebook等工具進行日常開發。
前提條件
管理員已完成以下操作:
已建立Kubernetes叢集。具體操作,請參見建立ACK託管叢集。
叢集每個節點的磁碟空間大於等於300 GB。
若希望取得最佳的資料加速對比效果,可以選擇4機8卡v100機型進行實驗。
若希望取得最佳的拓撲感知效果,可以選擇兩台v100機型進行實驗。
已安裝雲原生AI套件並部署所有組件。具體操作,請參見安裝雲原生AI套件。
可訪問AI營運控制台。關於如何配置AI營運控制台,請參見訪問AI營運控制台。
可訪問AI開發控制台。關於如何配置AI開發控制台,請參見訪問AI開發控制台。
下載Fashion MNIST資料集,並上傳至OSS。關於如何將模型上傳到OSS上,請參見控制台上傳檔案。
已擷取測試代碼的Git倉庫地址,及使用者名稱和密碼。
已通過Kubectl工具串連Kubernetes叢集。具體操作,請參見擷取叢集KubeConfig並通過kubectl工具串連叢集。
已安裝命令列提交工具Arena。具體操作,請參見配置Arena用戶端。
實驗環境
本文通過開發、訓練、加速、管理、評測和部署一個fashion-mnist任務,來介紹AI開發人員如何使用雲原生AI套件。
首先需要管理員執行,步驟一:為開發人員建立帳號並分配資源、步驟二:建立資料集。其餘步驟可由開發人員完成。
開發人員需要在Jupyter Notebook中建立Terminal或使用叢集中的跳板機提交Arena命令列,推薦使用Jupyter Notebook。
本實驗的叢集資訊如下所示:
主機名稱 | IP | 角色 | GPU卡數 | CPU核心數 | Memory |
cn-beijing.192.168.0.13 | 192.168.0.13 | 跳板機 | 1 | 8 | 30580004 KiB |
cn-beijing.192.168.0.16 | 192.168.0.16 | Worker | 1 | 8 | 30580004 KiB |
cn-beijing.192.168.0.17 | 192.168.0.17 | Worker | 1 | 8 | 30580004 KiB |
cn-beijing.192.168.0.240 | 192.168.0.240 | Worker | 1 | 8 | 30580004 KiB |
cn-beijing.192.168.0.239 | 192.168.0.239 | Worker | 1 | 8 | 30580004 KiB |
實驗目標
通過本文操作,可實現以下目標:
資料集管理
使用Jupyter Notebook搭建開發環境
提交單機訓練任務
提交分布式訓練任務
使用Fluid加速訓練任務
使用ACK AI任務調度器加速訓練任務
模型管理
模型評測
部署推理服務
步驟一:為開發人員建立帳號並分配資源
開發人員請聯絡管理員擷取以下資源:
使用者帳號和密碼。關於如何新增使用者,請參見系統管理使用者。
資源配額。關於如何分配資源配額,請參見管理彈性配額組。
若通過AI開發控制台提交任務,請擷取AI開發控制台的訪問地址。關於如何訪問AI開發控制台,請參見訪問AI開發控制台。
若通過Arena命令列提交任務,請擷取訪問叢集的kube.config。關於如何擷取訪問叢集的kube.config,請參見步驟二:選擇叢集憑證類型。
步驟二:建立資料集
資料集需要由管理員角色來管理。本樣本使用fashion-mnist資料集。
步驟一:建立fashion-mnist資料集
根據以下YAML樣本建立fashion-mnist.yaml檔案。
本樣本建立OSS類型的PV及PVC。
apiVersion: v1 kind: PersistentVolume metadata: name: fashion-demo-pv spec: accessModes: - ReadWriteMany capacity: storage: 10Gi csi: driver: ossplugin.csi.alibabacloud.com volumeAttributes: bucket: fashion-mnist otherOpts: "" url: oss-cn-beijing.aliyuncs.com akId: "AKID" akSecret: "AKSECRET" volumeHandle: fashion-demo-pv persistentVolumeReclaimPolicy: Retain storageClassName: oss volumeMode: Filesystem --- apiVersion: v1 kind: PersistentVolumeClaim metadata: name: fashion-demo-pvc namespace: demo-ns spec: accessModes: - ReadWriteMany resources: requests: storage: 10Gi selector: matchLabels: alicloud-pvname: fashion-demo-pv storageClassName: oss volumeMode: Filesystem volumeName: fashion-demo-pv
執行以下命令建立fashion-mnist資料集。
kubectl create -f fashion-mnist.yaml
查看PV及PVC的狀態。
執行以下命令,查看PV的狀態。
kubectl get pv fashion-mnist-jackwg
預期輸出:
NAME CAPACITY ACCESS MODES RECLAIM POLICY STATUS CLAIM STORAGECLASS REASON AGE fashion-mnist-jackwg 10Gi RWX Retain Bound ns1/fashion-mnist-jackwg-pvc oss 8h
執行以下命令,查看PVC的狀態。
kubectl get pvc fashion-mnist-jackwg-pvc -n ns1
預期輸出:
NAME STATUS VOLUME CAPACITY ACCESS MODES STORAGECLASS AGE fashion-mnist-jackwg-pvc Bound fashion-mnist-jackwg 10Gi RWX oss 8h
從預期輸出可得,PV及PVC的狀態均為Bound。
步驟二:建立加速資料集
管理員可通過AI營運控制台建立加速資料集。
- 使用管理員帳號訪問AI營運控制台。
- 在AI營運控制台左側導覽列中,選擇 。
在資料集列表頁面,單擊目標資料集右側操作列的一鍵加速。
加速後的資料集如下圖所示:
步驟三:模型開發
本節介紹如何使用Jupyter Notebook搭建開發環境。整體流程為:
使用自訂鏡像建立Jupyter Notebook(可選)。
通過Jupyter Notebook開發測試。
在Jupyter Notebook中提交代碼至Git倉庫。
使用Arena SDK提交訓練任務。
(可選)步驟一:使用自訂鏡像建立Jupyter Notebook
AI開發控制台的Jupyter Notebook,預設提供了TensorFlow及PyTorch不同版本的鏡像,若均不滿足需求可考慮自訂鏡像。
使用以下Dockerfile模板範例,建立名為Dockerfile的檔案。
關於自訂鏡像的規範,請參見建立並使用Notebook。
cat<<EOF >dockerfile FROM tensorflow/tensorflow:1.15.5-gpu USER root RUN pip install jupyter && \ pip install ipywidgets && \ jupyter nbextension enable --py widgetsnbextension && \ pip install jupyterlab && jupyter serverextension enable --py jupyterlab EXPOSE 8888 #USER jovyan CMD ["sh", "-c", "jupyter-lab --notebook-dir=/home/jovyan --ip=0.0.0.0 --no-browser --allow-root --port=8888 --NotebookApp.token='' --NotebookApp.password='' --NotebookApp.allow_origin='*' --NotebookApp.base_url=${NB_PREFIX} --ServerApp.authenticate_prometheus=False"] EOF
執行以下命令,使用Dockerfile構建鏡像。
docker build -f dockerfile .
預期輸出:
Sending build context to Docker daemon 9.216kB Step 1/5 : FROM tensorflow/tensorflow:1.15.5-gpu ---> 73be11373498 Step 2/5 : USER root ---> Using cache ---> 7ee21dc7e42e Step 3/5 : RUN pip install jupyter && pip install ipywidgets && jupyter nbextension enable --py widgetsnbextension && pip install jupyterlab && jupyter serverextension enable --py jupyterlab ---> Using cache ---> 23bc51c5e16d Step 4/5 : EXPOSE 8888 ---> Using cache ---> 76a55822ddae Step 5/5 : CMD ["sh", "-c", "jupyter-lab --notebook-dir=/home/jovyan --ip=0.0.0.0 --no-browser --allow-root --port=8888 --NotebookApp.token='' --NotebookApp.password='' --NotebookApp.allow_origin='*' --NotebookApp.base_url=${NB_PREFIX} --ServerApp.authenticate_prometheus=False"] ---> Using cache ---> 3692f04626d5 Successfully built 3692f04626d5
執行以下命令,推送鏡像到您的Docker鏡像倉庫。
docker tag ${IMAGE_ID} registry-vpc.cn-beijing.aliyuncs.com/${DOCKER_REPO}/jupyter:fashion-mnist-20210802a docker push registry-vpc.cn-beijing.aliyuncs.com/${DOCKER_REPO}/jupyter:fashion-mnist-20210802a
建立拉取鏡像所需Docker倉庫的Secret。
更多資訊,請參見在叢集中建立儲存授權令牌的Secret。
kubectl create secret docker-registry regcred \ --docker-server=<您的鏡像倉程式庫伺服器> \ --docker-username=<您的使用者名稱> \ --docker-password=<您的密碼> \ --docker-email=<您的郵箱地址>
在AI開發控制台建立Jupyter Notebook。
關於如何建立Jupyter Notebook,請參見建立並使用Notebook。
建立Jupyter Notebook的相關參數配置請參見下圖:
步驟二:通過Jupyter Notebook開發測試
- 訪問AI開發控制台。
- 在AI開發控制台的左側導覽列中,單擊Notebook。
在Notebook頁面,單擊狀態為Running的目標Jupyter Notebook。
建立命令列Launcher,確認資料是否掛載成功。
pwd /root/data ls -alh
預期輸出:
total 30M drwx------ 1 root root 0 Jan 1 1970 . drwx------ 1 root root 4.0K Aug 2 04:15 .. drwxr-xr-x 1 root root 0 Aug 1 14:16 saved_model -rw-r----- 1 root root 4.3M Aug 1 01:53 t10k-images-idx3-ubyte.gz -rw-r----- 1 root root 5.1K Aug 1 01:53 t10k-labels-idx1-ubyte.gz -rw-r----- 1 root root 26M Aug 1 01:54 train-images-idx3-ubyte.gz -rw-r----- 1 root root 29K Aug 1 01:53 train-labels-idx1-ubyte.gz
建立供開發fashion-mnist模型使用的Jupyter Notebook,初始化內容如下所示:
#!/usr/bin/python # -*- coding: UTF-8 -*- import os import gzip import numpy as np import tensorflow as tf from tensorflow import keras print('TensorFlow version: {}'.format(tf.__version__)) dataset_path = "/root/data/" model_path = "./model/" model_version = "v1" def load_data(): files = [ 'train-labels-idx1-ubyte.gz', 'train-images-idx3-ubyte.gz', 't10k-labels-idx1-ubyte.gz', 't10k-images-idx3-ubyte.gz' ] paths = [] for fname in files: paths.append(os.path.join(dataset_path, fname)) with gzip.open(paths[0], 'rb') as labelpath: y_train = np.frombuffer(labelpath.read(), np.uint8, offset=8) with gzip.open(paths[1], 'rb') as imgpath: x_train = np.frombuffer(imgpath.read(), np.uint8, offset=16).reshape(len(y_train), 28, 28) with gzip.open(paths[2], 'rb') as labelpath: y_test = np.frombuffer(labelpath.read(), np.uint8, offset=8) with gzip.open(paths[3], 'rb') as imgpath: x_test = np.frombuffer(imgpath.read(), np.uint8, offset=16).reshape(len(y_test), 28, 28) return (x_train, y_train),(x_test, y_test) def train(): (train_images, train_labels), (test_images, test_labels) = load_data() # scale the values to 0.0 to 1.0 train_images = train_images / 255.0 test_images = test_images / 255.0 # reshape for feeding into the model train_images = train_images.reshape(train_images.shape[0], 28, 28, 1) test_images = test_images.reshape(test_images.shape[0], 28, 28, 1) class_names = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot'] print('\ntrain_images.shape: {}, of {}'.format(train_images.shape, train_images.dtype)) print('test_images.shape: {}, of {}'.format(test_images.shape, test_images.dtype)) model = keras.Sequential([ keras.layers.Conv2D(input_shape=(28,28,1), filters=8, kernel_size=3, strides=2, activation='relu', name='Conv1'), keras.layers.Flatten(), keras.layers.Dense(10, activation=tf.nn.softmax, name='Softmax') ]) model.summary() testing = False epochs = 5 model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) logdir = "/training_logs" tensorboard_callback = keras.callbacks.TensorBoard(log_dir=logdir) model.fit(train_images, train_labels, epochs=epochs, callbacks=[tensorboard_callback], ) test_loss, test_acc = model.evaluate(test_images, test_labels) print('\nTest accuracy: {}'.format(test_acc)) export_path = os.path.join(model_path, model_version) print('export_path = {}\n'.format(export_path)) tf.keras.models.save_model( model, export_path, overwrite=True, include_optimizer=True, save_format=None, signatures=None, options=None ) print('\nSaved model success') if __name__ == '__main__': train()
重要代碼中的dataset_path及model_path需要指定為Notebook掛載的資料來源路徑,Notebook就可以訪問掛載到本地檔案中的資料集。
在目標Notebook中單擊表徵圖。
預期輸出:
TensorFlow version: 1.15.5 train_images.shape: (60000, 28, 28, 1), of float64 test_images.shape: (10000, 28, 28, 1), of float64 Model: "sequential_2" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= Conv1 (Conv2D) (None, 13, 13, 8) 80 _________________________________________________________________ flatten_2 (Flatten) (None, 1352) 0 _________________________________________________________________ Softmax (Dense) (None, 10) 13530 ================================================================= Total params: 13,610 Trainable params: 13,610 Non-trainable params: 0 _________________________________________________________________ Train on 60000 samples Epoch 1/5 60000/60000 [==============================] - 3s 57us/sample - loss: 0.5452 - acc: 0.8102 Epoch 2/5 60000/60000 [==============================] - 3s 52us/sample - loss: 0.4103 - acc: 0.8555 Epoch 3/5 60000/60000 [==============================] - 3s 55us/sample - loss: 0.3750 - acc: 0.8681 Epoch 4/5 60000/60000 [==============================] - 3s 55us/sample - loss: 0.3524 - acc: 0.8757 Epoch 5/5 60000/60000 [==============================] - 3s 53us/sample - loss: 0.3368 - acc: 0.8798 10000/10000 [==============================] - 0s 37us/sample - loss: 0.3770 - acc: 0.8673 Test accuracy: 0.8672999739646912 export_path = ./model/v1 Saved model success
步驟三:在Jupyter Notebook中提交代碼至Git倉庫
Jupyter Notebook建立完成後,可以直接在Notebook中提交代碼到您的Git庫。
執行以下命令,安裝Git。
apt-get update apt-get install git
執行以下命令,初始化配置Git並儲存使用者名稱密碼至Notebook。
git config --global credential.helper store git pull ${YOUR_GIT_REPO}
執行以下命令,推送代碼到Git庫。
git push origin fashion-test
預期輸出:
Total 0 (delta 0), reused 0 (delta 0) To codeup.aliyun.com:60b4cf5c66bba1c04b442e49/tensorflow-fashion-mnist-sample.git * [new branch] fashion-test -> fashion-test
步驟四:使用Arena SDK提交訓練任務
安裝Arena SDK的依賴。
!pip install coloredlogs
根據以下樣本建立Python檔案,初始化代碼如下所示:
import os import sys import time from arenasdk.client.client import ArenaClient from arenasdk.enums.types import * from arenasdk.exceptions.arena_exception import * from arenasdk.training.tensorflow_job_builder import * from arenasdk.logger.logger import LoggerBuilder def main(): print("start to test arena-python-sdk") client = ArenaClient("","demo-ns","info","arena-system") # demo-ns是提交到的namespace。 print("create ArenaClient succeed.") print("start to create tfjob") job_name = "arena-sdk-distributed-test" job_type = TrainingJobType.TFTrainingJob try: # build the training job job = TensorflowJobBuilder().with_name(job_name)\ .witch_workers(1)\ .with_gpus(1)\ .witch_worker_image("tensorflow/tensorflow:1.5.0-devel-gpu")\ .witch_ps_image("tensorflow/tensorflow:1.5.0-devel")\ .witch_ps_count(1)\ .with_datas({"fashion-demo-pvc":"/data"})\ .enable_tensorboard()\ .with_sync_mode("git")\ .with_sync_source("https://codeup.aliyun.com/60b4cf5c66bba1c04b442e49/tensorflow-fashion-mnist-sample.git")\ #Git倉庫地址。 .with_envs({\ "GIT_SYNC_USERNAME":"USERNAME", \ #Git倉庫使用者名稱。 "GIT_SYNC_PASSWORD":"PASSWORD",\ #Git倉庫密碼。 "TEST_TMPDIR":"/",\ })\ .with_command("python code/tensorflow-fashion-mnist-sample/tf-distributed-mnist.py").build() # if training job is not existed,create it if client.training().get(job_name, job_type): print("the job {} has been created, to delete it".format(job_name)) client.training().delete(job_name, job_type) time.sleep(3) output = client.training().submit(job) print(output) count = 0 # waiting training job to be running while True: if count > 160: raise Exception("timeout for waiting job to be running") jobInfo = client.training().get(job_name,job_type) if jobInfo.get_status() == TrainingJobStatus.TrainingJobPending: print("job status is PENDING,waiting...") count = count + 1 time.sleep(5) continue print("current status is {} of job {}".format(jobInfo.get_status().value,job_name)) break # get the training job logs logger = LoggerBuilder().with_accepter(sys.stdout).with_follow().with_since("5m") #jobInfo.get_instances()[0].get_logs(logger) # display the training job information print(str(jobInfo)) # delete the training job #client.training().delete(job_name, job_type) except ArenaException as e: print(e) main()
namespace
:本樣本是將訓練任務提交到demo-ns命名空間下。with_sync_source
:Git倉庫地址。with_envs
:Git倉庫使用者名稱和密碼。
在目標Notebook中單擊表徵圖。
預期輸出:
2021-11-02/08:57:28 DEBUG util.py[line:19] - execute command: [arena get --namespace=demo-ns --arena-namespace=arena-system --loglevel=info arena-sdk-distributed-test --type=tfjob -o json] 2021-11-02/08:57:28 DEBUG util.py[line:19] - execute command: [arena submit --namespace=demo-ns --arena-namespace=arena-system --loglevel=info tfjob --name=arena-sdk-distributed-test --workers=1 --gpus=1 --worker-image=tensorflow/tensorflow:1.5.0-devel-gpu --ps-image=tensorflow/tensorflow:1.5.0-devel --ps=1 --data=fashion-demo-pvc:/data --tensorboard --sync-mode=git --sync-source=https://codeup.aliyun.com/60b4cf5c66bba1c04b442e49/tensorflow-fashion-mnist-sample.git --env=GIT_SYNC_USERNAME=kubeai --env=GIT_SYNC_PASSWORD=kubeai@ACK123 --env=TEST_TMPDIR=/ python code/tensorflow-fashion-mnist-sample/tf-distributed-mnist.py] start to test arena-python-sdk create ArenaClient succeed. start to create tfjob 2021-11-02/08:57:29 DEBUG util.py[line:19] - execute command: [arena get --namespace=demo-ns --arena-namespace=arena-system --loglevel=info arena-sdk-distributed-test --type=tfjob -o json] service/arena-sdk-distributed-test-tensorboard created deployment.apps/arena-sdk-distributed-test-tensorboard created tfjob.kubeflow.org/arena-sdk-distributed-test created job status is PENDING,waiting... 2021-11-02/09:00:34 DEBUG util.py[line:19] - execute command: [arena get --namespace=demo-ns --arena-namespace=arena-system --loglevel=info arena-sdk-distributed-test --type=tfjob -o json] current status is RUNNING of job arena-sdk-distributed-test { "allocated_gpus": 1, "chief_name": "arena-sdk-distributed-test-worker-0", "duration": "185s", "instances": [ { "age": "13s", "gpu_metrics": [], "is_chief": false, "name": "arena-sdk-distributed-test-ps-0", "node_ip": "192.168.5.8", "node_name": "cn-beijing.192.168.5.8", "owner": "arena-sdk-distributed-test", "owner_type": "tfjob", "request_gpus": 0, "status": "Running" }, { "age": "13s", "gpu_metrics": [], "is_chief": true, "name": "arena-sdk-distributed-test-worker-0", "node_ip": "192.168.5.8", "node_name": "cn-beijing.192.168.5.8", "owner": "arena-sdk-distributed-test", "owner_type": "tfjob", "request_gpus": 1, "status": "Running" } ], "name": "arena-sdk-distributed-test", "namespace": "demo-ns", "priority": "N/A", "request_gpus": 1, "tensorboard": "http://192.168.5.6:31068", "type": "tfjob" }
步驟四:模型訓練
根據以下樣本提交Tensorflow單機訓練任務、Tensorflow分布式訓練任務、Fluid加速訓練任務及ACK AI任務調度器加速分布式訓練任務。
樣本一:提交Tensorflow單機訓練任務
Notebook開發完成並儲存代碼後,可通過Arena命令列或AI開發控制台兩種方式提交訓練任務。
方式一:通過Arena命令列提交訓練任務
arena \
submit \
tfjob \
-n ns1 \
--name=fashion-mnist-arena \
--data=fashion-mnist-jackwg-pvc:/root/data/ \
--env=DATASET_PATH=/root/data/ \
--env=MODEL_PATH=/root/saved_model \
--env=MODEL_VERSION=1 \
--env=GIT_SYNC_USERNAME=<GIT_USERNAME> \
--env=GIT_SYNC_PASSWORD=<GIT_PASSWORD> \
--sync-mode=git \
--sync-source=https://codeup.aliyun.com/60b4cf5c66bba1c04b442e49/tensorflow-fashion-mnist-sample.git \
--image="tensorflow/tensorflow:2.2.2-gpu" \
"python /root/code/tensorflow-fashion-mnist-sample/train.py --log_dir=/training_logs"
方式二:通過AI開發控制台提交訓練任務
配置資料來源。具體操作,請參見配置訓練資料。
部分配置參數說明如下所示:
參數名
樣本值
是否必填
名稱
fashion-demo
是
命名空間
demo-ns
是
儲存卷聲明
fashion-demo-pvc
是
本機存放區目錄
/root/data
否
配置代碼源。具體操作,請參見配置訓練代碼。
參數名
樣本值
是否必填
名稱
fashion-git
是
Git地址
https://codeup.aliyun.com/60b4cf5c66bba1c04b442e49/tensorflow-fashion-mnist-sample.git
是
預設分支
master
否
本機存放區目錄
/root/
否
私人Git使用者名稱
您的私人Git倉庫的使用者名稱
否
私人Git密碼/憑證
您的私人Git倉庫的密碼
否
提交單機訓練任務。具體操作,請參見提交Tensorflow訓練任務。
配置訓練參數後,單擊提交,然後即可在工作清單查看到訓練任務。提交Job的參數如下所示:
參數名
說明
任務名稱
本樣本的任務名稱為fashion-tf-ui。
任務類型
本樣本選擇Tensorflow單機。
命名空間
本樣本為demo-ns。與資料集所在命名空間必須相同。
資料來源配置
本樣本為fashion-demo,選擇步驟1中的配置。
代碼配置
本樣本為fashion-git,選擇步驟2中的配置。
代碼分支
本樣本為master。
執行命令
本樣本為
"export DATASET_PATH=/root/data/ &&export MODEL_PATH=/root/saved_model &&export MODEL_VERSION=1 &&python /root/code/tensorflow-fashion-mnist-sample/train.py"
。私人Git倉庫
若需要使用私人的程式碼程式庫,需要配置私人Git倉庫的使用者名稱和密碼。
執行個體數量
預設為1。
鏡像
本樣本為
tensorflow/tensorflow:2.2.2-gpu
。鏡像拉取憑證
若需要使用私人的鏡像倉庫,需要提前建立Secret。
CPU(核心數)
預設為4。
記憶體(GB)
預設為8。
關於更多的Arena命令列參數,請參見Arena提交TFJob。
任務提交完成後,查看任務日誌。
在AI開發控制台的左側導覽列中,單擊工作清單。
在工作清單頁面,單擊目標任務名稱。
在目標任務詳情頁面,單擊執行個體頁簽,然後單擊目標執行個體右側操作列的日誌。
本樣本的日誌資訊如下所示:
train_images.shape: (60000, 28, 28, 1), of float64 test_images.shape: (10000, 28, 28, 1), of float64 Model: "sequential" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= Conv1 (Conv2D) (None, 13, 13, 8) 80 _________________________________________________________________ flatten (Flatten) (None, 1352) 0 _________________________________________________________________ Softmax (Dense) (None, 10) 13530 ================================================================= Total params: 13,610 Trainable params: 13,610 Non-trainable params: 0 _________________________________________________________________ Epoch 1/5 2021-08-01 14:21:17.532237: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1430] function cupti_interface_->EnableCallback( 0 , subscriber_, CUPTI_CB_DOMAIN_DRIVER_API, cbid)failed with error CUPTI_ERROR_INVALID_PARAMETER 2021-08-01 14:21:17.532390: I tensorflow/core/profiler/internal/gpu/device_tracer.cc:216] GpuTracer has collected 0 callback api events and 0 activity events. 2021-08-01 14:21:17.533535: I tensorflow/core/profiler/rpc/client/save_profile.cc:168] Creating directory: /training_logs/train/plugins/profile/2021_08_01_14_21_17 2021-08-01 14:21:17.533928: I tensorflow/core/profiler/rpc/client/save_profile.cc:174] Dumped gzipped tool data for trace.json.gz to /training_logs/train/plugins/profile/2021_08_01_14_21_17/fashion-mnist-arena-chief-0.trace.json.gz 2021-08-01 14:21:17.534251: I tensorflow/core/profiler/utils/event_span.cc:288] Generation of step-events took 0 ms 2021-08-01 14:21:17.534961: I tensorflow/python/profiler/internal/profiler_wrapper.cc:87] Creating directory: /training_logs/train/plugins/profile/2021_08_01_14_21_17Dumped tool data for overview_page.pb to /training_logs/train/plugins/profile/2021_08_01_14_21_17/fashion-mnist-arena-chief-0.overview_page.pb Dumped tool data for input_pipeline.pb to /training_logs/train/plugins/profile/2021_08_01_14_21_17/fashion-mnist-arena-chief-0.input_pipeline.pb Dumped tool data for tensorflow_stats.pb to /training_logs/train/plugins/profile/2021_08_01_14_21_17/fashion-mnist-arena-chief-0.tensorflow_stats.pb Dumped tool data for kernel_stats.pb to /training_logs/train/plugins/profile/2021_08_01_14_21_17/fashion-mnist-arena-chief-0.kernel_stats.pb 1875/1875 [==============================] - 3s 2ms/step - loss: 0.5399 - accuracy: 0.8116 Epoch 2/5 1875/1875 [==============================] - 3s 2ms/step - loss: 0.4076 - accuracy: 0.8573 Epoch 3/5 1875/1875 [==============================] - 3s 2ms/step - loss: 0.3727 - accuracy: 0.8694 Epoch 4/5 1875/1875 [==============================] - 3s 2ms/step - loss: 0.3512 - accuracy: 0.8769 Epoch 5/5 1875/1875 [==============================] - 3s 2ms/step - loss: 0.3351 - accuracy: 0.8816 313/313 [==============================] - 0s 1ms/step - loss: 0.3595 - accuracy: 0.8733 2021-08-01 14:21:34.820089: W tensorflow/python/util/util.cc:329] Sets are not currently considered sequences, but this may change in the future, so consider avoiding using them. WARNING:tensorflow:From /usr/local/lib/python3.6/dist-packages/tensorflow/python/ops/resource_variable_ops.py:1817: calling BaseResourceVariable.__init__ (from tensorflow.python.ops.resource_variable_ops) with constraint is deprecated and will be removed in a future version. Instructions for updating: If using Keras pass *_constraint arguments to layers. Test accuracy: 0.8733000159263611 export_path = /root/saved_model/1 Saved model success
查看Tensorboard。
需要通過Kubectl的port-forward代理到Tensorboard Service。具體操作如下所示:
執行以下命令,擷取Tensorboard Service的地址。
kubectl get svc -n demo-ns
預期輸出:
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE tf-dist-arena-tensorboard NodePort 172.16.XX.XX <none> 6006:32226/TCP 80m
執行以下命令,通過Kubectl代理Tensorboard連接埠。
kubectl port-forward svc/tf-dist-arena-tensorboard -n demo-ns 6006:6006
預期輸出:
Forwarding from 127.0.0.1:6006 -> 6006 Forwarding from [::1]:6006 -> 6006 Handling connection for 6006 Handling connection for 6006
在瀏覽器地址欄輸入
http://localhost:6006/
,即可查看TensorBoard。
樣本二:提交Tensorflow分布式訓練任務
方式一:通過Arena命令列提交訓練任務
執行以下命令,通過Arena命令列提交訓練任務。
arena submit tf \ -n demo-ns \ --name=tf-dist-arena \ --working-dir=/root/ \ --data fashion-mnist-pvc:/data \ --env=TEST_TMPDIR=/ \ --env=GIT_SYNC_USERNAME=kubeai \ --env=GIT_SYNC_PASSWORD=kubeai@ACK123 \ --env=GIT_SYNC_BRANCH=master \ --gpus=1 \ --workers=2 \ --worker-image=tensorflow/tensorflow:1.5.0-devel-gpu \ --sync-mode=git \ --sync-source=https://codeup.aliyun.com/60b4cf5c66bba1c04b442e49/tensorflow-fashion-mnist-sample.git \ --ps=1 \ --ps-image=tensorflow/tensorflow:1.5.0-devel \ --tensorboard \ "python code/tensorflow-fashion-mnist-sample/tf-distributed-mnist.py --log_dir=/training_logs"
執行以下命令,擷取Tensorboard Service的地址。
kubectl get svc -n demo-ns
預期輸出:
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE tf-dist-arena-tensorboard NodePort 172.16.204.248 <none> 6006:32226/TCP 80m
執行以下命令,通過Kubectl代理Tensorboard的庫。
查看Tensorboard需要通過Kubectl的port-forward代理到Tensorboard Service。
kubectl port-forward svc/tf-dist-arena-tensorboard -n demo-ns 6006:6006
預期輸出:
Forwarding from 127.0.0.1:6006 -> 6006 Forwarding from [::1]:6006 -> 6006 Handling connection for 6006 Handling connection for 6006
在瀏覽器地址欄輸入
http://localhost:6006/
即可查看TensorBoard。
方式二:通過AI開發控制台提交訓練任務
配置資料來源。具體操作,請參見配置訓練資料。
本樣本複用1的資料,不再重複配置。
配置代碼源。具體操作,請參見配置訓練代碼。
本樣本複用2的代碼,不再重複配置。
提交Tensorflow分布式訓練任務。具體操作,請參見提交Tensorflow訓練任務。
配置訓練參數後,單擊提交,然後即可在工作清單查看到訓練任務。提交Job的參數如下所示:
參數名
說明
任務名稱
本樣本為fashion-ps-ui。
任務類型
本樣本選擇TF分布式。
命名空間
本樣本為demo-ns,與資料集所在命名空間必須相同。
資料來源配置
本樣本為fashion-demo,選擇步驟1中的配置。
代碼配置
本樣本為fashion-git,選擇步驟2中的配置。
執行命令
本樣本為
"export TEST_TMPDIR=/root/ && python code/tensorflow-fashion-mnist-sample/tf-distributed-mnist.py --log_dir=/training_logs"
。鏡像
任務資源配置下Worker頁簽的鏡像,本樣本配置為
tensorflow/tensorflow:1.5.0-devel-gpu
。任務資源配置下的PS頁簽的鏡像,本樣本配置為
tensorflow/tensorflow:1.5.0-devel
。
關於更多的Arena命令列參數,請參見Arena提交TFJob。
樣本三:提交Fluid加速訓練任務
以下樣本介紹如何通過AI營運控制台,一鍵加速現有資料集,並通過提交使用加速資料集的任務,與未使用加速資料集的任務對比,體驗加速效果。整體操作流程如下所示:
管理員在營運控制台,一鍵加速現有資料集。
開發人員使用Arena提交使用加速資料集的任務。
Arena list對比Job運行時間長度。
一鍵加速現有資料集。
提交使用加速資料集的任務。
開發人員在命名空間demo-ns下,提交使用加速資料集的訓練任務。加速資料集的任務與不使用加速資料集的任務主要區別在於:
--data
:加速後的PVC名稱,本樣本為fashion-demo-pvc-acc
。--env=DATASET_PATH
:代碼中讀取資料的路徑,為Mount Path(本樣本為--data
中的/root/data/)+ PVC名稱(本樣本為fashion-demo-pvc-acc)。
arena \ submit \ tfjob \ -n demo-ns \ --name=fashion-mnist-fluid \ --data=fashion-demo-pvc-acc:/root/data/ \ --env=DATASET_PATH=/root/data/fashion-demo-pvc-acc \ --env=MODEL_PATH=/root/saved_model \ --env=MODEL_VERSION=1 \ --env=GIT_SYNC_USERNAME=${GIT_USERNAME} \ --env=GIT_SYNC_PASSWORD=${GIT_PASSWORD} \ --sync-mode=git \ --sync-source=https://codeup.aliyun.com/60b4cf5c66bba1c04b442e49/tensorflow-fashion-mnist-sample.git \ --image="tensorflow/tensorflow:2.2.2-gpu" \ "python /root/code/tensorflow-fashion-mnist-sample/train.py --log_dir=/training_logs"
執行以下命令對比兩次訓練任務的執行速度。
arena list -n demo-ns
預期輸出:
NAME STATUS TRAINER DURATION GPU(Requested) GPU(Allocated) NODE fashion-mnist-fluid SUCCEEDED TFJOB 33s 0 N/A 192.168.5.7 fashion-mnist-arena SUCCEEDED TFJOB 3m 0 N/A 192.168.5.8
通過Arena List兩次訓練結果可以看出,在相同的訓練代碼和節點資源下,使用Fluid加速之後的訓練任務耗時33秒,不採用加速的訓練任務耗時3分鐘。
樣本四:使用ACK AI任務調度器加速分布式訓練任務
ACK AI任務調度器是阿里雲ACK為雲原生AI和巨量資料定製的最佳化調度器外掛程式,支援Gang Scheduling,Capacity Scheduling和拓撲感知調度等。這裡以GPU的拓撲感知調度為例,查看其加速效果。
ACK AI任務調度器基於節點異構資源的拓撲資訊,例如GPU卡之間的Nvlink、PcleSwitch等通訊方式,或者CPU的NUMA拓撲結構,在叢集維度進行最佳的調度選擇,提供給AI作業更好的效能。關於GPU拓撲感知調度的更多資訊,請參見GPU拓撲感知調度概述。關於CPU拓撲感知調度的更多資訊,請參見啟用CPU拓撲感知調度。
根據以下樣本介紹如何開啟GPU拓撲感知調度,並對比加速效果。
執行以下命令,建立不開啟拓撲感知調度的訓練任務。
arena submit mpi \ --name=tensorflow-4-vgg16 \ --gpus=1 \ --workers=4 \ --image=registry.cn-hangzhou.aliyuncs.com/kubernetes-image-hub/tensorflow-benchmark:tf2.3.0-py3.7-cuda10.1 \ "mpirun --allow-run-as-root -np "4" -bind-to none -map-by slot -x NCCL_DEBUG=INFO -x NCCL_SOCKET_IFNAME=eth0 -x LD_LIBRARY_PATH -x PATH --mca pml ob1 --mca btl_tcp_if_include eth0 --mca oob_tcp_if_include eth0 --mca orte_keep_fqdn_hostnames t --mca btl ^openib python /tensorflow/benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py --model=vgg16 --batch_size=64 --variable_update=horovod"
建立開啟拓撲感知調度的訓練任務。
為節點打標籤,下面以cn-beijing.192.168.XX.XX的節點為例,實際操作時,需要替換為您的叢集節點名稱。
kubectl label node cn-beijing.192.168.XX.XX ack.node.gpu.schedule=topology --overwrite
執行以下命令,建立開啟拓撲感知調度的訓練任務,並開啟Arena拓撲感知開關
--gputopology=true
。arena submit mpi \ --name=tensorflow-topo-4-vgg16 \ --gpus=1 \ --workers=4 \ --gputopology=true \ --image=registry.cn-hangzhou.aliyuncs.com/kubernetes-image-hub/tensorflow-benchmark:tf2.3.0-py3.7-cuda10.1 \ "mpirun --allow-run-as-root -np "4" -bind-to none -map-by slot -x NCCL_DEBUG=INFO -x NCCL_SOCKET_IFNAME=eth0 -x LD_LIBRARY_PATH -x PATH --mca pml ob1 --mca btl_tcp_if_include eth0 --mca oob_tcp_if_include eth0 --mca orte_keep_fqdn_hostnames t --mca btl ^openib python /tensorflow/benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py --model=vgg16 --batch_size=64 --variable_update=horovod
對比兩次訓練任務的執行速度。
執行以下命令,對比兩次訓練任務的執行速度。
arena list -n demo-ns
預期輸出:
NAME STATUS TRAINER DURATION GPU(Requested) GPU(Allocated) NODE tensorflow-topo-4-vgg16 SUCCEEDED MPIJOB 44s 4 N/A 192.168.4.XX1 tensorflow-4-vgg16-image-warned SUCCEEDED MPIJOB 2m 4 N/A 192.168.4.XX0
執行以下命令,查看未開啟拓撲感知調度的訓練任務的總處理速度。
arena logs tensorflow-topo-4-vgg16 -n demo-ns
預期輸出:
100 images/sec: 251.7 +/- 0.1 (jitter = 1.2) 7.262 ---------------------------------------------------------------- total images/sec: 1006.44
執行以下命令,查看開啟拓撲感知調度的訓練任務的總處理速度。
arena logs tensorflow-4-vgg16-image-warned -n demo-ns
預期輸出:
100 images/sec: +/- 0.2 (jitter = 1.5) 7.261 ---------------------------------------------------------------- total images/sec: 225.50
根據上述預期輸出可得,開啟拓撲感知調度的訓練任務與未開啟拓撲感知調度的訓練任務的執行速度如下所示:
訓練任務 | 單卡處理速度(ns) | 總處理速度(ns) | 運行時間長度(秒) |
開啟拓撲感知調度 | 56.4 | 225.50 | 44 |
未開啟拓撲感知調度 | 251.7 | 1006.44 | 120 |
當節點啟用GPU拓撲感知調度後,不再支援普通GPU資源調度。可通過執行以下命令更改節點標籤,恢複普通GPU資源調度功能。
kubectl label node cn-beijing.192.168.XX.XX0 ack.node.gpu.schedule=default --overwrite
步驟五:模型管理
- 訪問AI開發控制台。
- 在AI開發控制台的左側導覽列中,單擊模型管理。
單擊模型管理頁面的建立模型。
在建立對話方塊中,配置需要建立的模型名稱、模型版本以及該模型對應關聯的訓練的Job。
本樣本的模型名稱為fsahion-mnist-demo,模型版本為v1,訓練的Job選擇為tf-single。
單擊確定後,即可看到新增的模型。
如果需要評測新增的模型,可在相應的模型後單擊新增評測。
步驟六:模型評測
雲原生AI套件也支援提交模型評測類任務,可通過Arena和開發控制台兩種方式提交。本樣本介紹如何評測訓練Fashion-mnist過程中儲存的Checkpoint。整體操作流程如下所示:
通過Arena提交開啟Checkpoint的訓練任務。
通過Arena提交評測任務。
通過AI開發控制台對比不同評測的效果。
提交開啟Checkpoint的訓練任務。
執行以下命令,通過Arena提交開啟輸出Checkpoint的訓練任務,並儲存Checkpoint到fashion-demo-pvc中。
arena \ submit \ tfjob \ -n demo-ns \ #您可根據需要配置命名空間。 --name=fashion-mnist-arena-ckpt \ --data=fashion-demo-pvc:/root/data/ \ --env=DATASET_PATH=/root/data/ \ --env=MODEL_PATH=/root/data/saved_model \ --env=MODEL_VERSION=1 \ --env=GIT_SYNC_USERNAME=${GIT_USERNAME} \ #輸入您的Git使用者名稱。 --env=GIT_SYNC_PASSWORD=${GIT_PASSWORD} \ #輸入您的Git密碼。 --env=OUTPUT_CHECKPOINT=1 \ --sync-mode=git \ --sync-source=https://codeup.aliyun.com/60b4cf5c66bba1c04b442e49/tensorflow-fashion-mnist-sample.git \ --image="tensorflow/tensorflow:2.2.2-gpu" \ "python /root/code/tensorflow-fashion-mnist-sample/train.py --log_dir=/training_logs"
提交評測任務。
製作評測鏡像。
擷取模型評估代碼,在kubeai-sdk目錄執行以下命令,構建並推送鏡像。
docker build . -t ${DOCKER_REGISTRY}:fashion-mnist docker push ${DOCKER_REGISTRY}:fashion-mnist
執行以下命令,擷取AI套件部署的Mysql。
kubectl get svc -n kube-ai ack-mysql
預期輸出:
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE ack-mysql ClusterIP 172.16.XX.XX <none> 3306/TCP 28h
執行以下命令,通過Arena提交評測任務。
arena evaluate model \ --namespace=demo-ns \ --loglevel=debug \ --name=evaluate-job \ --image=registry.cn-beijing.aliyuncs.com/kube-ai/kubeai-sdk-demo:fashion-minist \ --env=ENABLE_MYSQL=True \ --env=MYSQL_HOST=172.16.77.227 \ --env=MYSQL_PORT=3306 \ --env=MYSQL_USERNAME=kubeai \ --env=MYSQL_PASSWORD=kubeai@ACK \ --data=fashion-demo-pvc:/data \ --model-name=1 \ --model-path=/data/saved_model/ \ --dataset-path=/data/ \ --metrics-path=/data/output \ "python /kubeai/evaluate.py"
說明MYSQL的IP地址和連接埠可從上一步擷取。
對比評測結果。
在AI開發控制台的左側導覽列中,單擊模型管理。
在工作清單中單擊目標評測任務的名稱,即可看到對應評測任務的指標。
也可選擇多個任務對比指標:
步驟七:模型部署
模型開發、評測完成之後,需要發布為服務,供業務系統調用。以下內容介紹如何將上述步驟產生的模型發布為tf-serving服務。Arena同時支援Triton及Seldon等服務架構。更多資訊,請參見Arena serve文檔。
以下樣本使用步驟四:模型訓練訓練產出的模型,並將模型儲存在步驟二:建立資料集的PVC下(即fashion-minist-demo PVC)。若您的模型來自其他儲存類型,則需要先在叢集中建立相應的PVC。
執行以下命令,通過Arena將TensorFlow模型部署到TensorFlow Serving上。
arena serve tensorflow \ --loglevel=debug \ --namespace=demo-ns \ --name=fashion-mnist \ --model-name=1 \ --gpus=1 \ --image=tensorflow/serving:1.15.0-gpu \ --data=fashion-demo-pvc:/data \ --model-path=/data/saved_model/ \ --version-policy=latest
執行以下命令,擷取部署的推理服務名。
arena serve list -n demo-ns
預期輸出:
NAME TYPE VERSION DESIRED AVAILABLE ADDRESS PORTS GPU fashion-mnist Tensorflow 202111031203 1 1 172.16.XX.XX GRPC:8500,RESTFUL:8501 1
預期輸出中的ADDRESS和PORTS可用於叢集內調用。
在Jupyter中建立Jupyter Notebook檔案,作為請求tf-serving HTTP協議服務的Client。
本樣本使用步驟三:模型開發中建立的Jupyter Notebook來發起請求。
本樣本初始化代碼中的
server_ip
替換為上一步擷取的ADDRESS(172.16.XX.XX)。本樣本初始化代碼中的
server_http_port
為上一步中擷取的RESTFUL連接埠(8501)。
Notebook檔案的初始化代碼如下所示:
import os import gzip import numpy as np # import matplotlib.pyplot as plt import random import requests import json server_ip = "172.16.XX.XX" server_http_port = 8501 dataset_dir = "/root/data/" def load_data(): files = [ 'train-labels-idx1-ubyte.gz', 'train-images-idx3-ubyte.gz', 't10k-labels-idx1-ubyte.gz', 't10k-images-idx3-ubyte.gz' ] paths = [] for fname in files: paths.append(os.path.join(dataset_dir, fname)) with gzip.open(paths[0], 'rb') as labelpath: y_train = np.frombuffer(labelpath.read(), np.uint8, offset=8) with gzip.open(paths[1], 'rb') as imgpath: x_train = np.frombuffer(imgpath.read(), np.uint8, offset=16).reshape(len(y_train), 28, 28) with gzip.open(paths[2], 'rb') as labelpath: y_test = np.frombuffer(labelpath.read(), np.uint8, offset=8) with gzip.open(paths[3], 'rb') as imgpath: x_test = np.frombuffer(imgpath.read(), np.uint8, offset=16).reshape(len(y_test), 28, 28) return (x_train, y_train),(x_test, y_test) def show(idx, title): plt.figure() plt.imshow(test_images[idx].reshape(28,28)) plt.axis('off') plt.title('\n\n{}'.format(title), fontdict={'size': 16}) class_names = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot'] (train_images, train_labels), (test_images, test_labels) = load_data() train_images = train_images / 255.0 test_images = test_images / 255.0 # reshape for feeding into the model train_images = train_images.reshape(train_images.shape[0], 28, 28, 1) test_images = test_images.reshape(test_images.shape[0], 28, 28, 1) print('\ntrain_images.shape: {}, of {}'.format(train_images.shape, train_images.dtype)) print('test_images.shape: {}, of {}'.format(test_images.shape, test_images.dtype)) rando = random.randint(0,len(test_images)-1) #show(rando, 'An Example Image: {}'.format(class_names[test_labels[rando]])) # !pip install -q requests # import requests # headers = {"content-type": "application/json"} # json_response = requests.post('http://localhost:8501/v1/models/fashion_model:predict', data=data, headers=headers) # predictions = json.loads(json_response.text)['predictions'] # show(0, 'The model thought this was a {} (class {}), and it was actually a {} (class {})'.format( # class_names[np.argmax(predictions[0])], np.argmax(predictions[0]), class_names[test_labels[0]], test_labels[0])) def request_model(data): headers = {"content-type": "application/json"} json_response = requests.post('http://{}:{}/v1/models/1:predict'.format(server_ip, server_http_port), data=data, headers=headers) print('=======response:', json_response, json_response.text) predictions = json.loads(json_response.text)['predictions'] print('The model thought this was a {} (class {}), and it was actually a {} (class {})'.format(class_names[np.argmax(predictions[0])], np.argmax(predictions[0]), class_names[test_labels[0]], test_labels[0])) #show(0, 'The model thought this was a {} (class {}), and it was actually a {} (class {})'.format( # class_names[np.argmax(predictions[0])], np.argmax(predictions[0]), class_names[test_labels[0]], test_labels[0])) # def request_model_version(data): # headers = {"content-type": "application/json"} # json_response = requests.post('http://{}:{}/v1/models/1/version/1:predict'.format(server_ip, server_http_port), data=data, headers=headers) # print('=======response:', json_response, json_response.text) # predictions = json.loads(json_response.text) # for i in range(0,3): # show(i, 'The model thought this was a {} (class {}), and it was actually a {} (class {})'.format( # class_names[np.argmax(predictions[i])], np.argmax(predictions[i]), class_names[test_labels[i]], test_labels[i])) data = json.dumps({"signature_name": "serving_default", "instances": test_images[0:3].tolist()}) print('Data: {} ... {}'.format(data[:50], data[len(data)-52:])) #request_model_version(data) request_model(data)
單擊Jupyter Notebook的表徵圖,即可看到以下執行結果:
train_images.shape: (60000, 28, 28, 1), of float64 test_images.shape: (10000, 28, 28, 1), of float64 Data: {"signature_name": "serving_default", "instances": ... [0.0], [0.0], [0.0], [0.0], [0.0], [0.0], [0.0]]]]} =======response: <Response [200]> { "predictions": [[7.42696e-07, 6.91237556e-09, 2.66364452e-07, 2.27735413e-07, 4.0373439e-07, 0.00490919966, 7.27086217e-06, 0.0316713452, 0.0010733594, 0.962337255], [0.00685342, 1.8516447e-08, 0.9266119, 2.42278338e-06, 0.0603800081, 4.01338771e-12, 0.00613868702, 4.26091073e-15, 1.35764185e-05, 3.38685469e-10], [1.09047969e-05, 0.999816835, 7.98738e-09, 0.000122893631, 4.85748023e-05, 1.50353979e-10, 3.57102294e-07, 1.89657579e-09, 4.4604468e-07, 9.23274524e-09] ] } The model thought this was a Ankle boot (class 9), and it was actually a Ankle boot (class 9)
常見問題
如何在Jupyter Notebook控制台安裝常用軟體?
答:可通過執行以下命令在Jupyter Notebook控制台安裝軟體。
apt-get install ${您需要的軟體}
如何解決Jupyter Notebook控制台字元集亂碼問題?
答:根據以下樣本編輯/etc/locale檔案後,重新開啟Terminal。
LC_CTYPE="da_DK.UTF-8" LC_NUMERIC="da_DK.UTF-8" LC_TIME="da_DK.UTF-8" LC_COLLATE="da_DK.UTF-8" LC_MONETARY="da_DK.UTF-8" LC_MESSAGES="da_DK.UTF-8" LC_PAPER="da_DK.UTF-8" LC_NAME="da_DK.UTF-8" LC_ADDRESS="da_DK.UTF-8" LC_TELEPHONE="da_DK.UTF-8" LC_MEASUREMENT="da_DK.UTF-8" LC_IDENTIFICATION="da_DK.UTF-8" LC_ALL=