今天不讲原理了,我感觉写一大堆,让大家也理解不透
简要说一下:
- 不仅仅极大提升了训练速度,收敛过程大大加快;
- 还能增加分类效果,一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式,所以不用Dropout也能达到相当的效果;
- 另外调参过程也简单多了,对于初始化要求没那么高,而且可以使用大的学习率等。
在网上还找到一些比较不错的图,可以启发
数据做预处理
可以用 normalization 归一化 ,或者 standardization 标准化,
用来将数据的不同 feature 转换到同一范围内,
normalization 归一化 :将数据转换到 [0, 1] 之间,
standardization 标准化:转换后的数据符合标准正态分布
为什么要做归一化和标准化?
不同的特征具有不同数量级的数据,它们对线性组合后的结果的影响所占比重就很不相同,数量级大的特征显然影响更大。