大渡口资讯网
金融理财
当前位置: 首页 >> 金融理财 >> 正文

2019年的最后一个月,这里有6种你必须要知道的最新剪枝技术


文章作者:www.vivapinoy.com 发布时间:2020-02-12 点击:832



链接:

下图显示了传统修剪过程的三个阶段:预训练、修剪和微调。

本文提出的修剪技术包括一种新的修剪过程,该过程可以基于随机初始化权重来学习。通道重要性可以通过将标量门值与每个网络层相关联来学习。

在稀疏正则化条件下,优化信道的重要性可以提高模型的性能。在此过程中,随机权重不会更新。然后,基于给定的资源约束,使用二进制搜索策略来确定修剪模型的信道号配置。

下表显示了模型在不同数据集上的准确性:

Paper 2:敌对中性修剪(2019)

本文主要讨论网络在遇到抗干扰时隐藏特征的失真。本文提出的方法是:学习贝叶斯剪枝掩码来抑制较高的失真特征,从而最大化其抗干扰能力。链接到

论文:

作者考虑深层神经网络中隐藏特征的脆弱性。该方法提出在保持稳健特征的同时,剔除脆弱特征。这个过程可以通过以对抗的方式在贝叶斯框架中学习剪枝掩码来完成。

对抗性神经运行(ANP)结合了对抗训练和贝叶斯修剪方法。本文提出的新模型及其基线模型是:

标准卷积神经网络

使用β-伯努利差的基网络。即贝叶斯修剪(Byesian shopping)

拮抗训练网络(AT)

拮抗神经修剪(ANP),使用β-伯努利缺失。

对抗训练网络(AT-VS)正规化,漏洞抑制丢失。

拮抗神经修剪网络(ANP- VS)

下表展示了该模型的性能:

Paper 3:反思网络修剪的价值(ICLR 2019)

本文提出的网络修剪方法分为两种类型,目标修剪模型的结构由人或修剪算法决定。在实验中,作者将从零开始训练的剪枝模型与基于继承权重微调的剪枝模型进行了比较。比较针对预定义方法和自动方法。

纸链接:

下图显示了使用基于L1范数的过滤器修剪的预定义结构化修剪的结果。每一层使用较小的L1范数来截断一定比例的滤波器。“修剪模型”列是用于配置每个模型的预定义目标模型列表。我们可以看到,在每一行中,从头开始训练的模型的性能至少等于微调模型的性能。

如下表所示,ThiNet贪婪地切出对下一层激活值影响最小的通道。

下表显示了基于回归的特征重建方法的结果。该方法最小化了下一层特征图的重建误差,从而修剪了通道。优化问题可以通过LASSO回归来解决。

至于网络减肥,在训练期间,L1稀疏性被应用于批处理规范化层中的通道级缩放因子。之后,用较低的比例因子修剪通道。由于通道缩放因子是跨层比较的,因此该方法可以获得自动发现的目标体系结构。

Paper 4:通过可转换架构搜索进行网络修剪(神经科医生,2019)

本文建议将神经架构搜索直接应用于具有灵活通道和层数的网络。最小化修剪网络的损失有利于学习通道的数量。剪枝网络的特征图由基于概率分布采样的k个特征图像段组成,损失通过反向传播传递给网络权重和参数化分布。

Paper Link:

剪枝网络的宽度和深度是基于每个分布尺度的最大概率获得的,然后这些参数是通过从原始网络的知识迁移获得的。作者在CIFS-10、CIFS-100和ImageNet数据集上对该模型进行了评估。

修剪方法由三个步骤组成:

使用标准分类训练步骤训练大规模网络,无需修剪;

通过可转换架构搜索(TAS)搜索小规模网络的深度和宽度,以搜索最佳规模

利用简单的知识提取方法,将未修剪网络的信息迁移到搜索得到的小规模网络中。

下表比较了具有不同修剪算法的不同ResNet模型。获得的模型在图像网数据集上的各自性能:

Paper 5:自适应网络修剪(ICON IP 2019)

本文提出通过自适应网络修剪(SANP)降低有线电视网络的计算成本。通过在每个卷积层引入显着性和修剪模块,显着性和修剪模块可以学习预测显着性得分和修剪每个通道。SANP将根据每个层和每个样本决定修剪策略。

纸质链接:

根据下面的架构图,SPM模块嵌入在卷积网络的每一层。该模块可以基于输入特征预测通道的显着性得分,然后为每个通道生成相应的修剪决策。

对于剪枝决策为0的信道,跳过卷积运算,然后使用分类目标和成本目标联合训练骨干网和单点登录模块。计算成本取决于每层的修剪决策。

下表显示了这种方法的一些结果:

Paper 6:结构化修剪大型语言模型(2019)

本文提出的修剪方法基于低秩分解和增强拉格朗日L_0范数正则化的原理。l0正则化放松了结构化剪枝带来的约束,而低秩分解保持了矩阵的稠密结构。

纸质链接:

正则化让网络选择要移除的权重。权重矩阵被分解成两个较小的矩阵,然后设置两个矩阵之间的对角掩码。在训练过程中,采用l0正则化方法对掩码进行剪枝。使用增强拉格朗日方法来控制模型的最终稀疏性。本文作者将这种方法称为FLOP(因子化L0修剪)。

本文所用的字符级语言模型用于enwik8数据集的实验,该数据集包含从维基百科中选取的1亿个数据。作者对SRU模型和变压器-XL模型的触发器方法进行了评价。下表显示了一些结果:

以上是这次为您介绍的一些修剪技术。本文介绍的文章也有代码实现,您可以自己测试。

本文是为机器的核心而编写的。请联系此公共号码以获得授权。

?-

加入机器的心脏(全职记者/实习生):hr

jiqizhixin.com

贡献或寻求报道:content

下一条: 浙江宁波本地砻糠毛笋提前两月上市