博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习-监督学习-线性回归
阅读量:7237 次
发布时间:2019-06-29

本文共 1037 字,大约阅读时间需要 3 分钟。

一.引言

机器学习中的回归问题属于有监督学习的范畴,回归问题的目标是给定D维输入变量x,并且每一个输入矢量x都有对应的值y,要求对于新来的数据预测它对应的连续的目标值t。比如下面这个例子:假设我们有一个包含47个房子的面积和价格的数据集如下:

我们可以在Matlab中画出来这组数据集,如下:

看到画出来的点,是不是有点像一条曲线?我们可以用一条曲线去尽量拟合这些数据点,那么对于新来的输入,我么就可以将拟合的曲线上返回对应的点从而达到预测的目的。如果要预测的值是连续的比如上述的房价,那么就属于回归问题;如果要预测的值是离散的即一个个标签,那么就属于分类问题。这个学习处理过程如下图所示:

上述学习过程中的常用术语:  1). 包含房子面积和价格的数据集称为 "训练集training set"   2). 输入变量x(本例中为面积)为 "特征features"  3). 输出的预测值y(本例中为房价)为 "目标值target"  4). 拟合的曲线,一般表示为y = h(x),称为 "假设模型hypothesis"

二.线性回归模型

线性回归模型假设输入特征和对应的结果满足线性关系。在上述的数据集中加上一维--房间数量,于是数据集变为:

于是,输入特征x是二维的矢量,比如x1(i)表示数据集中第i个房子的面积,x2(i)表示数据集中第i个房子的房间数量。于是可以假设输入特征x与房价y满足线性函数,比如:

这里θi称为假设模型即映射输入特征x与结果y的线性函数h的参数parameters,为了简化表示,我们在输入特征中加入x0 = 1,于是得到:参数θ和输入特征x都为矢量,n是输入的特征x的维数(不包含x0)

现在,给定一个训练集,我们应该怎么学习参数θ,从而达到比较好的拟合效果呢?一个直观的想法是使得预测值h(x)尽可能接近y。一种方法是计算它的成本函数(Cost function),即预测出来的值与实际值y之间的方差的大小来决定当前值是否是最优的!为什么选择方差而不是选择偏差呢?因为偏差有正有负会相互抵消,因此选择方差更能准确表示两者之间的差异。因此我们对于每一个参数θ,定义一个代价函数cost function用来描述h(x(i))'与对应的y(i)'的接近程度:(假设现在只有2个参数θ0和θ1)

前面乘上的1/2m是为了求导的时候,使常数系数消失。于是我们的目标就变为了调整θ使得代价函数J(θ)取得最小值,方法有梯度下降法,最小二乘法等。

转载地址:http://cdwbm.baihongyu.com/

你可能感兴趣的文章
[LeetCode] Word Break II
查看>>
两句话解决代理问题
查看>>
熊市中,值得关注的项目都有这三大特征
查看>>
2018.12.27-dtoj-4089-line
查看>>
10:比较整数大小经典案例
查看>>
ES06--elasticsearch
查看>>
pytorch1.0 用torch script导出模型
查看>>
数据结构(九)查找
查看>>
JAVA常用的集合类
查看>>
Unity3D MainCamera和NGUI UICamera的小插曲
查看>>
gnuWin32-mini-2016.10.30
查看>>
Cassandra博客更新预告
查看>>
Linux 格式化和挂载数据盘
查看>>
mybatis 中 prefix="" suffixOverrides="," prefixOverrides="" suffix=""
查看>>
分类算法三(贝叶斯)
查看>>
栈 后缀表达式
查看>>
笔记:2016-6-17
查看>>
动态SQL番外篇
查看>>
项目中数据库超时设置整理
查看>>
boot和settlement日志在不断加大,需要清理
查看>>