大数据中损失函数的正则化

魁首哥

作者

大数据中损失函数的正则化

这篇文章将为大家详细讲解有关大数据中损失函数的正则化，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

损失函数的正则化

范数(Norm):用来度量某个向量空间(或矩阵)中每个向量的长度或大小。

向量范数——L1和L2最常用

矩阵范数

线性回归的正则化

使用训练集拟合线性回归方程时，如使用多项式拟合时，一般来说拟合方程的次数越高拟合效果越好，损失函数越小，但拟合函数也变得更加复杂。

在某些异常的情况下，如训练的数据量较小或者特征过多时，测试集中如果出现先前训练集中没有的样本，预测结果未必有效，使得分类结果的方差较大，出现过拟合，由此可见损失函数过小也不可取，意味着模型的通用性不够，即需要提高泛化能力，因而加上正则化项。此处正则化参数的标识是α，有些资料中会显示为λ，因为在sklearn库中，此项参数的标识为α，为方便使用，标识采用α。

线性回归正则化后的梯度更新方法

与线性回归的梯度更新公式相同，当θk等于θj时，可以对式子求导，得到新的梯度更新公式。

为什么要使用正则化？

为什么

为什么要对回归使用正则化？

为加强对正则化的理解，举例说明回归为什么要正则化-Regularization

多项式的次数提高，对于拟合性能的提升不大。

当把训练样本数从500降低至498时，发现高次多项式对于拟合的效果反而下降，对数据的预测能力下降，出现过拟合的现象。

正则化的基本方法是将所有多项式的系数的绝对值之和-L1正则化，或者多项式的系数绝对值的平方和再开方-L2正则化加入到惩罚项中，并制定一个惩罚力度因子来避免产生畸形的系数；即通过使用Lasso回归-采取L1正则化，岭回归-采取L2正则化，或者弹性网回归-L1+L2正则化来降低过拟合。上面通过举例使用岭回归，可以发现模型克服了100次多项式带来的过拟合问题。

岭回归中正则权重的作用

正则强度α是正则化系数或惩罚力度因子，weights权重系数是回归方程中的系数，一条不同颜色的曲线代表权重系数向量的一个不同的分量。α往左越大，往右趋向于0，因此可以α可以对权重系数进行约束。

通过交叉验证找到最佳超参数α

交叉验证Cross Validation 是将训练集分成几份，分别用来训练，测试和验证，以寻找到最佳的超参数，在程序中设置好一组alpha后，程序可自行验证并返回最佳的alpha。

关于“大数据中损失函数的正则化”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

阅读全文

发布于 2021-12-29 23:26:37

大数据