机器学习 -- 线性回归
- 一、梯度下降法
- 1、概念
- 2、对比分析
- 梯度下降法和最小二乘法
- 3、代码
“故不积跬步,无以至千里;不积小流,无以成江海”
线性回归的第二部分,梯度下降法
一、梯度下降法
1、概念
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一。这是一种很重要的优化方法,需要进行好好的理解,后续的深度学习中常常用用到类似的思想,像随机梯度下降(SGD)。
前面的最小二乘法,一般适用于一元的线性方程,得出一条确定的直线,对于多元的方程,往往采用梯度下降的方式,去近似得到近似解。
首先,你得知道梯度的概念,在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。如f(x,y),其梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)。梯度向量的几何意义,就是代表了函数变化最快的方向。
即沿着梯度向量的方向,就是函数增加最快的方向,更容易找到函数的最大值。 这是整个梯度下降法的基本思想。
图片来自互联网上
从公式出发,∂J(θ)/∂θ是我们要求出来的梯度,表示沿着梯度向量的方向,更加容易找到函数的最大值,那么反过来,-∂J(θ)/∂θ表示表示沿着梯度向量的方向,更加容易找到函数的最小值。
图片来自互联网上
2、对比分析
梯度下降法和最小二乘法
这两种方法都是在给定的数据下使得损失函数最小,这里主要分析它们的区别。
损失函数:梯度下降可以选取其他损失函数,而最小二乘一定是平方损失函数,找到的一定是全局的最小值,但是有的函数的没解的。
实现方法:梯度下降是一种迭代法,从图片也可看出是一种趋近的方式,找到的一般是局部最小。只有在目标函数是凸函数时才是全局最小。
3、代码
###0. 引入依赖
import numpy as np
import matplotlib.pyplot as plt
### 1. 导入数据(data.csv)
points = np.genfromtxt('data.csv', delimiter=',')
points[0,0]
# 提取points中的两列数据,分别作为x,y
x = points[:, 0]
y = points[:, 1]
# 用plt画出散点图
plt.scatter(x, y)
plt.show()
###2. 定义损失函数
# 损失函数是系数的函数,另外还要传入数据的x,y
def compute_cost(w, b, points):
total_cost = 0
M = len(points)
# 逐点计算平方损失误差,然后求平均数
for i in range(M):
x = points[i, 0]
y = points[i, 1]
total_cost += ( y - w * x - b ) ** 2
return total_cost/M
###3. 定义模型的超参数 前面几步基本是一样的,是一些常规的设置
alpha = 0.0001
initial_w = 0
initial_b = 0
num_iter = 10
###4. 定义核心梯度下降算法函数
def grad_desc(points, initial_w, initial_b, alpha, num_iter):
w = initial_w
b = initial_b
# 定义一个list保存所有的损失函数值,用来显示下降的过程
cost_list = []
for i in range(num_iter):
cost_list.append( compute_cost(w, b, points) )
w, b = step_grad_desc( w, b, alpha, points )
return [w, b, cost_list]
def step_grad_desc( current_w, current_b, alpha, points ):
sum_grad_w = 0
sum_grad_b = 0
M = len(points)
# 对每个点,代入公式求和
for i in range(M):
x = points[i, 0]
y = points[i, 1]
sum_grad_w += ( current_w * x + current_b - y ) * x
sum_grad_b += current_w * x + current_b - y
# 用公式求当前梯度
grad_w = 2/M * sum_grad_w
grad_b = 2/M * sum_grad_b
# 梯度下降,更新当前的w和b
updated_w = current_w - alpha * grad_w
updated_b = current_b - alpha * grad_b
return updated_w, updated_b
###5. 测试:运行梯度下降算法计算最优的w和b
w, b, cost_list = grad_desc( points, initial_w, initial_b, alpha, num_iter )
print("w is: ", w)
print("b is: ", b)
cost = compute_cost(w, b, points)
print("cost is: ", cost)
plt.plot(cost_list)
plt.show()
### 6. 画出拟合曲线
plt.scatter(x, y)
# 针对每一个x,计算出预测的y值
pred_y = w * x + b
plt.plot(x, pred_y, c='r')
plt.show()
我的guihub:https://github.com/BZQLin/Linear-regression