V社区-机器智能技术交流-【共享学习】关于深度学习显卡推理那些事儿

要想获得解决方案，首先需要了解原理。为向大家更直观地描述深度学习显卡推理的完整过程，画了一张精简的图如下：

结合个人经验，总结如下：

深度学习推理算法（GPU）并非全部在GPU上执行，图像拷贝、Resize等操作均是由CPU处理。由于主板内存和显卡内存物理上独立且无法转换（无法使用虚拟内存技术将硬盘内存转换为显存），因此图像数据需要先从内存上传到显存，经过CUDA并行推理后，再从显存下载到内存（才能被后续模块处理或显示）。
在算法平台中看到的输入图像和输出图像（概率缺陷图等）都是主板内存中的图像。
当显卡利用率不高时，耗时波动瓶颈在CPU对图像的预处理操作，以及图像上传、下载。因此，可以通过提升CPU来减少耗时波动。
当显卡利用率不高时，耗时瓶颈在显卡的运行频率。因此，可以通过超频工具锁频处理来减少耗时。超频工具可以网上下载或联系区域技术人员获取。
显卡属于硬件设备，因此也有节能设置。显卡驱动每隔一段时间会检测GPU是否被调用，当检测到GPU一段时间内都没有被调用，GPU就会进入休眠状态，此时若有进程调用GPU，则显卡会从休眠状态进入运行状态，唤醒过程存在一定延时。因此，当设备待机一段时间再次运行时，深度学习算法耗时会突然变长，就是由于显卡休眠导致的。因此，可以通过设置显卡高性能模式，以及调用AwakenGpuTool.exe（针对算子SDK开发客户，VM平台会自动调用该工具）来保证显卡始终被唤醒。
AwakenGpuTool.exe工具路径如下：

99%的人不知道！深度学习正在这样改变你的生活

30篇

什么是深度学习？

深度学习的前沿研究与应用

深度学习和传统算法在缺陷检测应用中的特点

深度学习训练工具VisionTrain1.4.1功能更新说明

模型优化方法---通用基础篇

模型优化方法---VM算法平台预测篇

模型优化方法---VisionTrain训练篇

模型优化方法---预测耗时篇

深度学习小工具之快速图像分割

深度学习小工具之标签转化工具

深度学习小工具之图像名称、标签文件内容修改工具

训练误差与泛化误差的关系

训练过程中对于误差值的理解

基本图像增强算法对深度学习模型结果的影响

使用VM深度学习功能实现模型训练与图像检索功能

智能相机-深度学习OCR训练及优化指南

一种提升OCR模型识别率的优化方法

根据实际需求找到最优方案-OCR识别篇

多分类分割任务下实现指定类别的阈值调整

多分类分割任务下的标注问题及解决思路

图像分割标注训练经验分享

基于VM界面层的多类别缺陷统计方案

VM深度学习OCR项目经验分享

【VM集成开源AI】深度学习算子模块封装

深度学习推理耗时波动现象的解决方法

【共享学习】关于深度学习显卡推理那些事儿

VM7100深度学习检测温度传感器焊点，裸针，锡珠，超盘，

深度学习缺陷检测项目经验分享

深度学习基础介绍

深度学习VS注册学习

请升级浏览器版本

Chrome

Edge

Firefox