单变量线性回归

单变量线性回归(Linear Regression with One Variable)

模型表示(Model Representation)

房价预测训练集

Size in $f e e t^{2}$ ( $x$ )	Price ($) in 1000's( $y$ )
2104	460
1416	232
1534	315
852	178
...	...

房价预测训练集中，同时给出了输入 $x$ 和输出结果 $y$ ，即给出了人为标注的"正确结果"，且预测的量是连续的，属于监督学习中的回归问题。

问题解决模型

其中 $h$ 代表结果函数，也称为假设(hypothesis) 。假设函数根据输入(房屋的面积)，给出预测结果输出(房屋的价格)，即是一个 $X \to Y$ 的映射。

$h_{θ} (x) = θ_{0} + θ_{1} x$ ，为解决房价问题的一种可行表达式。

$x$ : 特征/输入变量。

上式中， $θ$ 为参数， $θ$ 的变化才决定了输出结果，不同以往，这里的 $x$ 被我们视作已知(不论是数据集还是预测时的输入)，所以怎样解得 $θ$ 以更好地拟合数据，成了求解该问题的最终问题。

单变量，即只有一个特征(如例子中房屋的面积这个特征)。

代价函数(Cost Function)

我们的目的在于求解预测结果 $h$ 最接近于实际结果 $y$ 时 $θ$ 的取值，则问题可表达为求解 $\sum_{i = 0}^{m} (h_{θ} (x^{(i)}) - y^{(i)})$ 的最小值。

$m$ : 训练集中的样本总数

$y$ : 目标变量/输出变量

$(x, y)$ : 训练集中的实例

$(x^{(i)}, y^{(i)})$ : 训练集中的第 $i$ 个样本实例

假设函数(Hypothesis): $h_{θ} (x) = θ_{0} + θ_{1} x$

参数(Parameters): $θ_{0}, θ_{1}$

代价函数(Cost Function): $J (θ_{0}, θ_{1}) = \frac{1}{2 m} \sum_{i = 1}^{m} {(h_{θ} (x^{(i)}) - y^{(i)})}^{2}$

目标(Goal): $\underset{θ_{0}, θ_{1}}{minimize} J (θ_{0}, θ_{1})$

为了直观理解代价函数到底是在做什么，先假设 $θ_{1} = 0$ ，并假设训练集有三个数据，分别为 $(1, 1), (2, 2), (3, 3)$ ，这样在平面坐标系中绘制出 $h_{θ} (x)$ ，并分析 $J (θ_{0}, θ_{1})$ 的变化。

右图 $J (θ_{0}, θ_{1})$ 随着 $θ_{1}$ 的变化而变化，可见当 $θ_{1} = 1$ 时， $J (θ_{0}, θ_{1}) = 0$ ，取得最小值对应于左图青色直线，即函数 $h$ 拟合程度最好的情况。

参数在 $θ_{0}$ 不恒为 $0$ 时代价函数 $J (θ)$ 关于 $θ_{0}, θ_{1}$ 的**轮廓图(contour plot)**如下图所示，其中相同颜色的一个圈代表着同一高度（同一 $J (θ)$ 值）。

$θ_{0} = 360, θ_{1} = 0$ 时：

大概在 $θ_{0} = 250, θ_{1} = 0.12$ 时：

上图中最中心的点（红点），近乎为图像中的最低点，也即代价函数的最小值，此时对应 $h_{θ} (x)$ 对数据的拟合情况如左图所示。

为了求解最小值，引入了代价函数(Cost Function)概念，用于度量建模误差。考虑到要计算最小值，应用二次函数对求和式建模，即应用统计学中的平方损失函数（最小二乘法）：

J (θ_{0}, θ_{1}) = \frac{1}{2 m} \sum_{i = 1}^{m} {({\hat{y}}_{i} - y_{i})}^{2} = \frac{1}{2 m} \sum_{i = 1}^{m} {(h_{θ} (x_{i}) - y_{i})}^{2}

$\hat{y}$ : $y$ 的预测值

系数 $\frac{1}{2}$ 存在与否都不会影响结果，这里是为了在应用梯度下降时便于求解，平方的导数会抵消掉 $\frac{1}{2}$ 。

讨论到这里，我们的问题就转化成了求解 $J (θ_{0}, θ_{1})$ 的最小值。

最小二乘法（least square method）就是基于均方误差最小化来进行模型求解的一种方法，寻找可使损失函数值最小的参数 $w$ 和 $b$ 的过程称为最小二乘参数估计（parameter estimation）。

通过对损失函数分别求参数 $w$ 和 $b$ 的偏导，并且令导数为 0，可以得到这两个参数的闭式（closed-form）解（也即解析解）：

w = \frac{\sum_{i = 1}^{m} y_{i} (x_{i} - \bar{x})}{\sum_{i = 1}^{m} x_{i}^{2} - \frac{1}{m} (\sum_{i = 1}^{m} x_{i})^{2}} b = \frac{1}{m} \sum_{i = 1}^{m} (y_{i} - w x_{i})

在实际任务中，只要我们把自变量（x, y, m）的值代入就可以求出数值解了。

为什么可以这样求解呢？因为损失函数是一个凸函数（记住是向下凸，类似 U 型曲线），导数为 0 表示该函数曲线最低的一点，此时对应的参数值就是能使均方误差最小的参数值。特别地，要判断一个函数是否凸函数，可以求其二阶导数，若二阶导数在区间上非负则称其为凸函数，若在区间上恒大于零则称其为严格凸函数。

凸函数： $f (\frac{x_{1} + x_{2}}{2}) \leq \frac{f (x_{1}) + f (x_{2})}{2}$

梯度下降(Gradient Descent)

在特征量很大的情况下，即便是借用计算机来生成图像，人工的方法也很难读出 $J (θ)$ 的最小值，并且大多数情况无法进行可视化，故引入梯度下降(Gradient Descent)方法，让计算机自动找出最小化代价函数时对应的 $θ$ 值。

梯度下降背后的思想是：开始时，我们随机选择一个参数组合 $(θ_{0}, θ_{1}, . . . . . ., θ_{n})$ 起始点，计算代价函数，然后寻找下一个能使得代价函数下降最多的参数组合。不断迭代，直到找到一个局部最小值(local minimum)，由于下降的情况只考虑当前参数组合周围的情况，所以无法确定当前的局部最小值是否就是全局最小值(global minimum)，不同的初始参数组合，可能会产生不同的局部最小值。

下图根据不同的起始点，产生了两个不同的局部最小值。

视频中举了下山的例子，即我们在山顶上的某个位置，为了下山，就不断地看一下周围下一步往哪走下山比较快，然后就迈出那一步，一直重复，直到我们到达山下的某一处陆地。

梯度下降公式：

\begin{aligned} Repeat until convergence: { \\ θ_{j} := θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ_{0}, θ_{1}) \\ } \end{aligned}

$θ_{j}$ : 第 $j$ 个特征参数

”:=“: 赋值操作符

$α$ : 学习速率(learning rate), $α > 0$

$\frac{\partial}{\partial θ_{j}} J (θ_{0}, θ_{1})$ : $J (θ_{0}, θ_{1})$ 的偏导

公式中，学习速率决定了参数值变化的速率即”走多少距离“，而偏导这部分决定了下降的方向即”下一步往哪里“走（当然实际上的走多少距离是由偏导值给出的，学习速率起到调整后决定的作用），收敛处的局部最小值又叫做极小值，即”陆地“。

注意，在计算时要批量更新 $θ$ 值，即如上图中的左图所示，否则结果上会有所出入，原因不做细究。

梯度下降直观理解(Gradient Descent Intuition)

该节探讨 $θ_{1}$ 的梯度下降更新过程，即 $θ_{1} := θ_{1} - α \frac{d}{d θ_{1}} J (θ_{1})$ ，此处为了数学定义上的精确性，用的是 $\frac{d}{d θ_{1}} J (θ_{1})$ ，如果不熟悉微积分学，就把它视作之前的 $\frac{\partial}{\partial θ}$ 即可。

把红点定为初始点，切于初始点的红色直线的斜率，表示了函数 $J (θ)$ 在初始点处有正斜率，也就是说它有正导数，则根据梯度下降公式， $θ_{j} := θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ_{0}, θ_{1})$ 右边的结果是一个正值，即 $θ_{1}$ 会向左边移动。这样不断重复，直到收敛（达到局部最小值，即斜率为 0）。