机器学习系列之正则化

问题引入
正则化(Regularization)
- 含义
- 正则项
- 范数
- 稀疏
L1正则化(Lasso)
L2正则化(Ridge)
对比

机器学习系列之正则化。

问题引入

在机器学习中，通过对训练样本的学习，我们能得到一个看似不错的模型。为什么说看似不错，那是因为该模型往往能在训练样本上具有很高的性能，而在测试样本上性能就很差，就是关键时刻掉链子了！换种说法就是，就好像中国学生一样，擅长应试而不擅长实际应用。对于上面实际存在的问题，我们将其称之为”过拟合”，什么是过拟合，与之对应的还有欠拟合，看下面的例子你就懂了。

二维坐标系下，有若干点(x, y)，我们想找到一条曲线(直线),能尽量多地经过这些点。我们选择多项式模型来解决这个问题：

如果n太小了，对于数据点的拟合效果将会很差，参考上面组图的左图，几乎没有点落在直线上；当n适中时，对于数据点的拟合效果还可以，参考上面组图的中间图，几乎各点都离曲线很近；而当n很大时，每个点都在曲线上，如上面组图的右图。当n很大时，模型很契合训练数据，而对测试数据来说，往往不能得到上佳的性能。这就是过拟合的表现，拟合的过度了！！！
上面是线性回归的情况，逻辑回归与其类似：

为了解决过拟合，我们引用正则化方法。

正则化(Regularization)

含义

正则化是结构风险最小化策略的实现，是在经验风险上加一个正则项或惩罚项。正则化项一般是复杂度的单调递增函数买模型越复杂，正则化值越大。常见的正则化项是模型参数向量的范数。正则项一般具有如下形式：

其中λ>=0，代表正则化率。λ过大，模型将会十分简单，但是将会面临欠拟合；λ过小，模型将会十分复杂，将会面临过拟合。理想的λ值不是唯一的，往往根据实际数据的情况而定，需要手动调整。λ后面的一项是范数，将会在后面叙述。

正则项

正则项的引入，可以解决模型过拟合的问题。监督机器学习问题旨在正则化参数同时最小化误差。最小化误差要求我们的模型取拟合训练数据，而正则化参数则是方式模型过分拟合训练数据。正则函数的引用可以使我们的模型更加的简单。机器学习中几乎都可以看到在损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1-norm和ℓ2-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。

范数

L0范数：指向量中非0的元素的个数。
L1范数：指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”(Lasso regularization)。
L2范数：指向量中各个元素的平方和然后再求平方根。

在绝大多数情况下，我们并不使用L0正则化。因为L0范数很难优化求解(是一个NP难问题)，L1是L0的最优凸近似，比起L0更容易求解。

稀疏

为什么要实现稀疏？

1.特征选择。一般来说，xi的大部分元素（也就是特征）都是和最终的输出yi没有关系或者不提供任何信息的，在最小化目标函数的时候考虑xi这些额外的特征，虽然可以获得更小的训练误差，但在预测新的样本时，这些没用的信息反而会被考虑，从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命，它会学习地去掉这些没有信息的特征，也就是把这些特征对应的权重置为0。

2.可解释性。例如患某种病的概率是y，然后我们收集到的数据x是1000维的，也就是我们需要寻找这1000种因素到底是怎么影响患上这种病的概率的。假设我们这个是个回归模型：y=w1x1+w2x2+…+w1000x1000+b（当然了，为了让y限定在[0,1]的范围，一般还得加个Logistic函数）。通过学习，如果最后学习到的w就只有很少的非零元素，例如只有5个非零的wi，那么我们就有理由相信，这些对应的特征在患病分析上面提供的信息是巨大的，决策性的。也就是说，患不患这种病只和这5个因素有关，那医生就好分析多了。

L1正则化(Lasso)

假如带有L1正则化的损失函数为：

其中J0是原始的损失函数，加号后面的一项是L1正则化项，α是正则化系数。注意到L1正则化是权值的绝对值之和，J是带有绝对值符号的函数，因此J是不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。当我们在原始损失函数J0后添加L1正则化项时，相当于对J0做了一个约束(类似拉格朗日函数)。令：
则J=J0+L，此时我们的任务变成在L约束下求出J0取最小值的解。考虑二维的情况，即只有两个权值w1和w2，此时L=|w1|+|w2|对于梯度下降法，求解J0的过程可以画出等值线，同时L1正则化的函数L也可以在w1, w2的二维平面上画出来。如下图：

图中等值线是J0的等值线，黑色方形是L函数的图形。在图中，当J0等值线与L图形首次相交的地方就是最优解。上图中J0与L在L的一个顶点处相交，这个顶点就是最优解。注意到这个顶点的值是(w1, w2)=(0, w)。可以直观想象，因为L函数有很多『突出的角』（二维情况下四个，多维情况下更多），J0与这些角接触的机率会远大于与L其它部位接触的机率(注意，并不是说只有角才可以和J0相交，只是说角与J0相交的概率很大！不过鄙人并不懂为什么在角处特别容易相交)，而在这些角上，会有很多权值等于0。很多权值为0，那么只有少量的权值被保留，说明它们对结果的贡献很大。这就是为什么L1正则化可以产生稀疏模型，进而可以用于特征选择。

而正则化前面的系数α，可以控制L图形的大小。α越小，L的图形越大(上图中的黑色方框)；α越大，L的图形就越小，可以小到黑色方框只超出原点范围一点点，这是最优点的值(w1,w2)=(0,w)中的w可以取到很小的值。

L2正则化(Ridge)

假如带有L2正则化的损失函数为：

同理，在二维坐标系下画出图形：
二维平面下L2正则化的函数图形是个圆，与方形相比，被磨去了棱角。因此J0与L相交时使得w1或w2等于零的机率小了许多，这就是为什么L2正则化不具有稀疏性的原因。L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的正则项||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0。我们在拟合过程中通常都倾向于让各参数权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是『抗扰动能力强』。

为什么L2正则化可以获得值很小的参数？

以线性回归中的梯度下降法为例。假设要求的参数为θ，hθ(x)是我们的假设函数，那么线性回归的代价函数如下：

那么在梯度下降法中，最终用于迭代计算参数θ的迭代式为：

其中α是学习率。上式是没有添加L2正则化项的迭代公式，如果在原始代价函数之后添加L2正则化，则迭代公式会变成下面这样：

其中λ就是正则化参数。从上式可以看到，与未添加L2正则化的迭代公式相比，每一次迭代，θj都要先乘以一个小于1的因子，从而使得θj不断减小，因此总得来看，θ是不断减小的。

对比

1. L2正则：使得模型的解偏向于norm较小的W，通过限制W的norm的大小实现了对模型空间的限制，从而在一定程度上避免了过拟合。不过岭回归并不具有产生稀疏解的能力，得到的系数仍然需要数据中的所有特征才能计算预测结果，从计算量上来说并没有得到改观。

2. L1正则：它的优良性质是能产生稀疏性，导致W中许多项变成零。稀疏的解除了计算量上的好处之外，更重要的是更具有“可解释性”。

L1和L2正则都是比较常见和常用的正则化项，都可以达到防止过拟合的效果。L1正则化的解具有稀疏性，可用于特征选择。L2正则化的解都比较小，抗扰动能力强。

Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。

![](http://ww1.sinaimg.cn/large/005L0VzSgy1frgo821ddfj31400p0tgg.j

机器学习系列之正则化

问题引入

正则化(Regularization)

含义

正则项

范数

稀疏

L1正则化(Lasso)

L2正则化(Ridge)

对比

Comments