Slim功能介绍

复杂的模型有利于提高模型的性能，但也导致模型中存在一定冗余。此部分提供精简模型的功能，包括两部分：模型量化（量化训练、离线量化）、模型剪枝。

其中模型量化将全精度缩减到定点数减少这种冗余，达到减少模型计算复杂度，提高模型推理性能的目的。模型量化可以在基本不损失模型的精度的情况下，将FP32精度的模型参数转换为Int8精度，减小模型参数大小并加速计算，使用量化后的模型在移动端等部署时更具备速度优势。

模型剪枝将CNN中不重要的卷积核裁剪掉，减少模型参数量，从而降低模型计算复杂度。

本教程将介绍如何使用飞桨模型压缩库PaddleSlim做PaddleClas模型的压缩。 PaddleSlim 集成了模型剪枝、量化（包括量化训练和离线量化）、蒸馏和神经网络搜索等多种业界常用且领先的模型压缩功能，如果您感兴趣，可以关注并了解。

在开始本教程之前，建议先了解PaddleClas模型的训练方法以及PaddleSlim

快速开始

当训练出一个模型后，如果希望进一步的压缩模型大小并加速预测，可使用量化或者剪枝的方法压缩模型。

模型压缩主要包括五个步骤：

安装 PaddleSlim
准备训练好的模型
模型压缩
导出量化推理模型
量化模型预测部署

1. 安装PaddleSlim

可以通过pip install的方式进行安装。

pip install paddleslim -i https://pypi.tuna.tsinghua.edu.cn/simple

如果获取PaddleSlim的最新特性，可以从源码安装。

git clone https://github.com/PaddlePaddle/PaddleSlim.git
cd Paddleslim
python3.7 setup.py install

2. 准备训练好的模型

PaddleClas提供了一系列训练好的模型，如果待量化的模型不在列表中，需要按照常规训练方法得到训练好的模型。

3. 模型压缩

进入PaddleClas根目录

cd PaddleClas

slim训练相关代码已经集成到ppcls/engine/下，离线量化代码位于deploy/slim/quant_post_static.py。

3.1 模型量化

量化训练包括离线量化训练和在线量化训练，在线量化训练效果更好，需加载预训练模型，在定义好量化策略后即可对模型进行量化。

3.1.1 在线量化训练

训练指令如下：

CPU/单卡GPU

以CPU为例，若使用GPU，则将命令中改成cpu改成gpu

python3.7 tools/train.py -c ppcls/configs/slim/ResNet50_vd_quantization.yaml -o Global.device=cpu

其中yaml文件解析详见参考文档。为了保证精度，yaml文件中已经使用pretrained model.

单机多卡/多机多卡启动

export CUDA_VISIBLE_DEVICES=0,1,2,3
python3.7 -m paddle.distributed.launch \
    --gpus="0,1,2,3" \
      tools/train.py \
      -c ppcls/configs/slim/ResNet50_vd_quantization.yaml

3.1.2 离线量化

注意：目前离线量化，必须使用已经训练好的模型，导出的inference model进行量化。一般模型导出inference model可参考教程.

一般来说，离线量化损失模型精度较多。

生成inference model后，离线量化运行方式如下

python3.7 deploy/slim/quant_post_static.py -c ppcls/configs/ImageNet/ResNet/ResNet50_vd.yaml -o Global.save_inference_dir=./deploy/models/class_ResNet50_vd_ImageNet_infer

Global.save_inference_dir是inference model存放的目录。

执行成功后，在Global.save_inference_dir的目录下，生成quant_post_static_model文件夹，其中存储生成的离线量化模型，其可以直接进行预测部署，无需再重新导出模型。

3.2 模型剪枝

训练指令如下：

CPU/单卡GPU

以CPU为例，若使用GPU，则将命令中改成cpu改成gpu

python3.7 tools/train.py -c ppcls/configs/slim/ResNet50_vd_prune.yaml -o Global.device=cpu

单机单卡/单机多卡/多机多卡启动

export CUDA_VISIBLE_DEVICES=0,1,2,3
python3.7 -m paddle.distributed.launch \
    --gpus="0,1,2,3" \
      tools/train.py \
      -c ppcls/configs/slim/ResNet50_vd_prune.yaml

4. 导出模型

在得到在线量化训练、模型剪枝保存的模型后，可以将其导出为inference model，用于预测部署，以模型剪枝为例：

python3.7 tools/export_model.py \
    -c ppcls/configs/slim/ResNet50_vd_prune.yaml \
    -o Global.pretrained_model=./output/ResNet50_vd/best_model \
    -o Global.save_inference_dir=./inference

5. 模型部署

上述步骤导出的模型可以通过PaddleLite的opt模型转换工具完成模型转换。模型部署的可参考移动端模型部署

训练超参数建议

量化训练时，建议加载常规训练得到的预训练模型，加速量化训练收敛。
量化训练时，建议初始学习率修改为常规训练的1/20~1/10，同时将训练epoch数修改为常规训练的1/5~1/2，学习率策略方面，加上Warmup，其他配置信息不建议修改。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Slim功能介绍

快速开始

1. 安装PaddleSlim

2. 准备训练好的模型

3. 模型压缩

3.1 模型量化

3.1.1 在线量化训练

3.1.2 离线量化

3.2 模型剪枝

4. 导出模型

5. 模型部署

训练超参数建议

Files

README.md

Latest commit

History

README.md

File metadata and controls

Slim功能介绍

快速开始

1. 安装PaddleSlim

2. 准备训练好的模型

3. 模型压缩

3.1 模型量化

3.1.1 在线量化训练

3.1.2 离线量化

3.2 模型剪枝

4. 导出模型

5. 模型部署

训练超参数建议