RetinaNet是一種One-Stage RCNN類型的檢測網路,基本結構由一個Backbone、多個子網及NMS後處理組成。許多訓練架構中均實現了RetinaNet,典型的架構有Detectron2。本文以Detectron2的標準RetinaNet實現為例,介紹如何使用Blade最佳化RetinaNet(Detectron2)類型的模型。
使用限制
本文使用的環境需要滿足以下版本要求:
- 系統內容:Linux系統中使用Python 3.6及其以上版本、CUDA 10.2。
- 架構:PyTorch 1.8.1及其以上版本、Detectron2 0.4.1及其以上版本。
- 推理最佳化工具:Blade 3.16.0及其以上版本。
操作流程
使用Blade最佳化RetinaNet(Detectron2)類型模型的流程如下:
- 步驟一:匯出模型
使用Detectron2提供的
TracingAdapter
或scripting_with_instances
任何一種方式匯出模型。 - 步驟二:調用Blade最佳化模型
調用
blade.optimize
介面最佳化模型,並儲存最佳化後的模型。 - 步驟三:載入運行最佳化後的模型
經過對最佳化前後的模型進行效能測試,如果對結果滿意,可以載入最佳化後的模型進行推理。
步驟一:匯出模型
Detectron2是FAIR開源的靈活、可擴充、可配置的目標檢測和映像分割訓練架構。由於架構的靈活性,使用常規方法匯出模型可能會失敗或得到錯誤的匯出結果。為了支援TorchScript部署,Detectron2提供了TracingAdapter
和scripting_with_instances
兩種匯出方式,詳情請參見Detectron2 Usage。
Blade支援輸入任意形式的TorchScript模型,如下以
scripting_with_instances
為例,介紹匯出模型的過程。import torch
import numpy as np
from torch import Tensor
from torch.testing import assert_allclose
from detectron2 import model_zoo
from detectron2.export import scripting_with_instances
from detectron2.structures import Boxes
from detectron2.data.detection_utils import read_image
# 使用scripting_with_instances匯出RetinaNet模型。
def load_retinanet(config_path):
model = model_zoo.get(config_path, trained=True).eval()
fields = {
"pred_boxes": Boxes,
"scores": Tensor,
"pred_classes": Tensor,
}
script_model = scripting_with_instances(model, fields)
return model, script_model
# 下載一張樣本圖片。
# wget http://images.cocodataset.org/val2017/000000439715.jpg -q -O input.jpg
img = read_image('./input.jpg')
img = torch.from_numpy(np.ascontiguousarray(img.transpose(2, 0, 1)))
# 嘗試執行和對比匯出模型前後的結果。
pytorch_model, script_model = load_retinanet("COCO-Detection/retinanet_R_50_FPN_3x.yaml")
with torch.no_grad():
batched_inputs = [{"image": img.float()}]
pred1 = pytorch_model(batched_inputs)
pred2 = script_model(batched_inputs)
assert_allclose(pred1[0]['instances'].scores, pred2[0].scores)
步驟二:調用Blade最佳化模型
- 調用Blade最佳化介面。調用
blade.optimize
介面對模型進行最佳化,程式碼範例如下。關於blade.optimize
介面詳情,請參見最佳化PyTorch模型。import blade test_data = [(batched_inputs,)] # PyTorch的輸入資料是List of tuple。 optimized_model, opt_spec, report = blade.optimize( script_model, # 上一步匯出的TorchScript模型。 'o1', # 開啟Blade O1層級的最佳化。 device_type='gpu', # 目標裝置為GPU。 test_data=test_data, # 給定一組測試資料,用於輔助最佳化及測試。 )
- 列印最佳化報告並儲存模型。Blade最佳化後的模型仍然是一個TorchScript模型。完成最佳化後,您可以通過如下代碼列印最佳化報告並儲存最佳化模型。
列印的最佳化報告如下所示,關於最佳化報告中的欄位詳情請參見最佳化報告。# 列印最佳化報告。 print("Report: {}".format(report)) # 儲存最佳化後的模型。 torch.jit.save(optimized_model, 'optimized.pt')
Report: { "software_context": [ { "software": "pytorch", "version": "1.8.1+cu102" }, { "software": "cuda", "version": "10.2.0" } ], "hardware_context": { "device_type": "gpu", "microarchitecture": "T4" }, "user_config": "", "diagnosis": { "model": "unnamed.pt", "test_data_source": "user provided", "shape_variation": "undefined", "message": "Unable to deduce model inputs information (data type, shape, value range, etc.)", "test_data_info": "0 shape: (3, 480, 640) data type: float32" }, "optimizations": [ { "name": "PtTrtPassFp16", "status": "effective", "speedup": "3.77", "pre_run": "40.64 ms", "post_run": "10.78 ms" } ], "overall": { "baseline": "40.73 ms", "optimized": "10.76 ms", "speedup": "3.79" }, "model_info": { "input_format": "torch_script" }, "compatibility_list": [ { "device_type": "gpu", "microarchitecture": "T4" } ], "model_sdk": {} }
- 對最佳化前後的模型進行效能測試。效能測試的程式碼範例如下所示。
本次測試的參考結果值如下。import time @torch.no_grad() def benchmark(model, inp): for i in range(100): model(inp) torch.cuda.synchronize() start = time.time() for i in range(200): model(inp) torch.cuda.synchronize() elapsed_ms = (time.time() - start) * 1000 print("Latency: {:.2f}".format(elapsed_ms / 200)) # 對最佳化前的模型測速。 benchmark(pytorch_model, batched_inputs) # 對最佳化後的模型測速。 benchmark(optimized_model, batched_inputs)
上述結果表示同樣執行200輪,最佳化前後的模型平均延時分別是42.38 ms和10.77 ms。Latency: 42.38 Latency: 10.77
步驟三:載入運行最佳化後的模型
- 可選:在試用階段,您可以設定如下的環境變數,防止因為鑒權失敗而程式退出。
export BLADE_AUTH_USE_COUNTING=1
- 擷取鑒權。
- 部署模型。Blade最佳化後的模型仍然是TorchScript,因此您無需切換環境即可載入最佳化後的結果。
import blade.runtime.torch import detectron2 import torch from torch.testing import assert_allclose from detectron2.utils.testing import ( get_sample_coco_image, ) pytorch_model = model_zoo.get("COCO-Detection/retinanet_R_50_FPN_3x.yaml", trained=True).eval() optimized_model = torch.jit.load('optimized.pt') img = read_image('./input.jpg') img = torch.from_numpy(np.ascontiguousarray(img.transpose(2, 0, 1))) with torch.no_grad(): batched_inputs = [{"image": img.float()}] pred1 = pytorch_model(batched_inputs) pred2 = optimized_model(batched_inputs) assert_allclose(pred1[0]['instances'].scores, pred2[0].scores, rtol=1e-3, atol=1e-2)