模型压缩是指通过各种技术和方法减少机器学习模型的大小和计算复杂度,同时尽量保持其预测性能的过程。随着深度学习模型变得越来越复杂和庞大,模型压缩变得尤为重要,尤其是在资源受限的环境中,可有效减少存储和计算资源的使用。
简介
阿里云PAI-Model Gallery支持基于Weight-only Quantization技术的模型量化方法,通过采用MinMax-8Bit或MinMax-4Bit量化策略,可以将模型的浮点数参数和量化到8位或4位整数表示,这种方法旨在减少模型大小和计算复杂度,使其能够在资源受限的环境中高效部署深度学习模型,同时保持较好的性能表现。
压缩模型
训练模型。
当前支持对训练后的模型进行压缩,因此需要对预训练模型进行训练,详情请参见训练模型。
待模型训练完成之后,在任务详情页单击右上角压缩。
配置压缩任务。
关键配置如下:
参数
说明
压缩方式
当前仅支持基于Weight-only Quantization技术的模型量化方法,即将模型的权重参数转换到更低的bit位,降低模型推理的显存占用。
压缩策略
MinMax-8Bit:使用最小值-最大值(min-max)缩放方法将模型量化到8位整数表示。
MinMax-4Bit:使用最小值-最大值(min-max)缩放方法将模型量化到4位整数表示。
其他参数配置同训练模型。
单击压缩。
根据页面提示操作,会跳转到任务详情页面。您可以查看压缩任务的基本信息、实时状态、任务日志等信息。
查看压缩任务
在PAI-Model Gallery > 任务管理 > 压缩任务中查看压缩任务。