跟李沐学AI:数值稳定性、模型初始化和激活
创始人
2024-12-26 07:10:03
0

数值稳定性的两个常见问题

1. 梯度爆炸

梯度爆炸的问题:

值超出值域, 对于16位浮点数尤为严重

对学习率敏感:如果学习率太大->大参数值->更大的梯度,如果学习率太小->训练无进展

2. 梯度消失

梯度消失的问题:

梯度值变成0,对16位浮点数尤为严重

不管如何选择,训练没有进展

对于底部层尤为严重,仅仅顶部层训练的效果好,无法让神经网络更深

数值稳定性总结

当数值过大或过小时会导致数值问题

问题常发生在深度模型中,因为其会对n个数值累乘

让训练更加稳定

目标:让梯度值在合理的范围内,如[1e-6,1e3]

方法:将乘法变为加法、归一化、梯度裁剪、合理的权重初始化和选择合适的激活函数

让每层的方差是一个常数

将每层的输出和梯度都看作随机变量,让他们的均值和方差都保持一致。

权重初始化

在合理值区间内随机初始参数。训练开始时更容易发生数值不稳定,如远离最优解的地方损失函数表面可能很复杂,最优解附近损失函数表面较为平缓。使用正态分布N(0, 0.01)来初始权重对于较小的神经网络没有问题,但不能保证深度神经网络的稳定性。

默认初始化

如果我们不指定初始化方法, 框架将使用默认的随机初始化方法,对于中等难度的问题,这种方法通常很有效。

Xavier初始化

Xavier初始化也是一种常用的初始化方法。Xavier初始化从均值为0,方差为2 / n_{in} + n_{out} 的高斯分布中采样权重。我们也可以将其改为选择从均匀分布中抽取权重,均匀分布服从U(-\sqrt{\frac{6}{n_{in} + n_{out}}},\sqrt{\frac{6}{n_{in} + n_{out}}}) 

目录

数值稳定性的两个常见问题

1. 梯度爆炸

2. 梯度消失

数值稳定性总结

让训练更加稳定

让每层的方差是一个常数

权重初始化

默认初始化

Xavier初始化

初始化总结


合理的权重初始值和激活函数可以提升数值稳定性

相关内容

热门资讯

透视有挂(wPK)微扑克全自动... 透视有挂(wPK)微扑克全自动机器人(透视)详细辅助微扑克教程(一直有挂)1、下载好微扑克全自动机器...
透视最新(AAPoKER)aa... 透视最新(AAPoKER)aapoker猫腻(透视)一直有挂(详细辅助教你教程);1、游戏颠覆性的策...
透视苹果版!德扑ai智能机器人... 透视苹果版!德扑ai智能机器人,(德州之星)切实存在有挂(详细辅助wpk教程);暗藏猫腻,小编详细说...
透视实锤(wpK)wpk德州透... 透视实锤(wpK)wpk德州透视辅助(透视)详细辅助黑科技教程(总是有挂)在进入wpk德州透视辅助辅...
透视辅助(aapOKER)aa... 透视辅助(aapOKER)aapoker有外挂(透视)原来真的有挂(详细辅助透明挂教程);1、许多玩...
透视存在!德扑数据软件,(来玩... 透视存在!德扑数据软件,(来玩德州)果然是真的有挂(详细辅助攻略教程)1、许多玩家不知道德扑数据软件...
透视教学(Wpk)wpk有透视... 透视教学(Wpk)wpk有透视辅助(透视)详细辅助详细教程(一直是有挂)1、构建自己的wpk有透视辅...
透视规律(AAPOKEr)aa... 透视规律(AAPOKEr)aapoker辅助工具存在(透视)一贯有挂(详细辅助安装教程)1、aapo...
透视总结(微扑克)微扑克wpk... 透视总结(微扑克)微扑克wpk透视辅助(透视)详细辅助安装教程(本来真的有挂)微扑克wpk透视辅助辅...
透视神器!德州微扑克辅助,(线... 透视神器!德州微扑克辅助,(线上德州)本来是有挂(详细辅助必备教程)1、该软件可以轻松地帮助玩家将德...