神经外科杂志怎么写论文(神经外科杂志怎么写(3) 现在的位置:主页 > 综合新闻 >

神经外科杂志怎么写论文(神经外科杂志怎么写(3)

来源:中华神经外科杂志 【在线投稿】 栏目:综合新闻 时间:2022-12-13 11:55

【作者】网站采编

【关键词】

【摘要】3.1大量培训 在凸优化问题中,收敛速度随批量的增加而降低。 已知神经网络具有同样的实证结果[25]。 换言之,对于相同数量的epoch,大量训练的模型与小

3.1大量培训

在凸优化问题中,收敛速度随批量的增加而降低。 已知神经网络具有同样的实证结果[25]。 换言之,对于相同数量的epoch,大量训练的模型与小批量训练的模型相比,验证精度较低。 因此,有很多方法和技巧来解决这个问题。

线性扩展学习率:批量越大,梯度噪声越少,可以提高学习率并加快收敛。

学习率预热:预热这种启发式方法最初使用较小的学习率,并在训练过程稳定时恢复到初始学习率。

请注意,zero:Resnet块的最后一层可以是批处理规范化层(BN )。 zero 启发式法中,对所有残差块末端的BN层初始化=0。 因此,所有残差块只返回输入值,就相当于网络拥有更少的层,在初期阶段更容易训练。

无偏衰减:无偏衰减启发式方法只将权重衰减应用于卷积层和所有连通层的权重,不进行其他和这样的BN中的衰减。

表4 )4:ResNet-50中有效的每次训练启发式精度效果。

3.2低精度训练

但是,新硬件可能具有针对低精度数据类型而扩展的算术逻辑单元。 虽然性能很好,但是由于精度降低取值范围很小,所以有可能超出范围扰乱训练进度。

表3 )3:ResNet-50基准(BS=256和FP32 )与更高效的硬件设置(BS=1024和FP16 )之间的训练时间和验证精度比较。

4简要介绍了模型变型ResNet体系结构,特别是与模型变型协调相关的模块。 ResNet网络由输入主干、四个后续阶段和最终输出层组成,如图1所示。 输入主干有77卷积,输出通道64个,步幅2,接下来是3 3最大池化层,步幅2。 主干(input stem )将输入宽度和高度减少4倍,将其通道大小增加到64。

从阶段2开始,每个阶段从下采样块开始,然后是一些残差块。 在下采样块中,存在路径a和路径b。 路径a具有三个卷积,其卷积核的大小分别为11、33、11。 第一个卷积的步幅为2,将输入的长度和宽度减半。 最后一个卷积的输出通道比前两个大4倍,称为瓶颈结构。 路径b使用步骤2中的11卷积将输入形状转换为路径a的输出形状。 因此,可以将两个过程的输出相加,以获得下采样块的输出。 残差块与下采样块类似,但仅使用步幅为1的卷积。

可以修改每个阶段的残差块的数量,以获得不同的ResNet模型,如ResNet-50和ResNet-152。 其中,数字表示网络中卷积层的数量。

图1:ResNet-50体系结构。 列出了卷积层的卷积核大小、输出通道大小和步幅大小。 默认值为1。 游泳池化层也是如此。

图2 :三个ResNet变体。 ResNet-B修正ResNet的下采样模块。 ResNet-C进一步修改输入主干。 在此基础上,ResNet-D再次修正了下采样块。

表5 )针对ResNet-50和3种模型变体,比较模型尺寸(参数数量)、FLOPs和ImageNet验证精度(top-1,top-5 )。

5训练方法5.1改善余弦学习率衰减

Loshchilov等[18]提出了余弦退火策略,其简化版按照余弦函数将学习速度从初始值降低到0。 假设批次总数为t,忽略预热阶段。 然后,按如下在批次t中计算学习率_t。

其中为初始学习率,该方案称为余弦衰减。

图3 )可视化带预热方案的学习率变化。 顶部:批量大小为1024的余弦衰减和迭代步长衰减方案。 谷值:对两种方案的top-1验证准确率曲线。

5.2标签平滑

标签平滑的想法首先用于Inception-v2 [26]的训练。 按如下修改真实概率的结构

是一个小常数,k是标签总数。

图4 :标签在4:ImageNet中的平滑效果可视化。 顶级:增加会减小目标类别和其他类别之间的理论差距。 下图:最大预测与其他类别平均值之差的经验分布。 很明显,通过标签平滑化,分布中心处于理论值,极端的值很少。

5.3知识蒸馏

知识蒸馏[10]使用教师模型来支持当前模型(称为学生模型)的训练。 教师模型通常是具有更高精度的预训练模型,因此通过模仿,学生模型可以在保持模型复杂性的同时提高自身的精度。 例如,使用ResNet-152作为教师模型来帮助培训ResNet-50。

5.4混合训练

在混合训练(mixup )中,每次随机采样两个采样(x_i,y_i )和(x_j,y_j )。 然后通过这两个样本的加权线性插值构造新样本。

这里[ 0,1 ]是从贝塔(,)分布中提取的随机数。 混合训练仅使用新示例(x hat、y hat )。

5.5实验结果

表6 )通过堆栈训练的改善方法,得到的ImageNet验证精度。 基线模型是第3部分中描述的。

6迁移学习6.1目标检测

用表Pascal VOC评价各种预训练基础网络的Faster-RCNN性能。

6.2语义分割

用表ADE20K评价各种基础网络的FCN性能。

文章来源:《中华神经外科杂志》 网址: http://www.zhsjwkzz.cn/zonghexinwen/2022/1213/547.html

上一篇:神经外科杂志论文免费查重(学术家论文免费查
下一篇:神经眼科主要是看什么(神经外科论文题目)