Python 机器学习 - 预测分析核心算法(3)

第四章惩罚线性回归模型

集成方法对复杂问题（如不规则的决策曲面）或者可以利用大量数据进行求解的问题，表现较好。同时，集成方法能发现 2 阶甚至更高阶的重要性信息。

设我们预测的值为 Y，一个列向量 Y=[y1, y2, y3, … yn] 设属性值为属性矩阵，每一行为一个样本

    x11, x12, … x1m
X = x21, x22, … x2m
            …
    xn1, xn2, … xnm

所谓线性模型，就是寻找一系列的参数 ß1 ~ ßm 和一个标量 ß0 用 y = x1 * ß1 + x2 * ß2 + … + xm * ßm + ß0 来描述预测值与属性值之间的关系。

普通线性模型就是求使得普通最小二乘法值最小的 ß 值

岭回归在线性关系中增加了一个惩罚项岭回归惩罚项，其中 λ 是可控的，从 0 到正无穷，如果是 0 ，就相当于无系数的线性回归，如果是正无穷，则抛弃所有属性项，只留下常数项。除了岭回归之外，还有其他的乘法项可选，比如套索回归，套索回归的惩罚项为套索回归惩罚项

套索回归更倾向于导致稀疏的系数向量

通过基扩展的方式处理，在原始数据列中，加上包含非线性关系的数据列，再进行线性回归如添加一列数据，值为 x1 * x2 或者 x1 的 n 次方，把这些包含了非线性信息的数据作为一个数据项，然后用线性的方法检查其在预测中的相关性。