首页专栏机器学习文章详情

机器学习概念

北极网友阿伟 发布于 4 月 28 日

核函数

某种非线性变换 φ(x)，将输入空间映射到高维特征空间。φ(x)一般是很难表示的，故我们只用到K。在低维空间存在 K(x, x′) ，它恰好等于在高维空间中这个内积。简化计算，如SVM（只用到内积），核Kmeans（把求欧式距离的平方公式分解，变成内积形式）。
常见核由高斯核，指数核，径向基核。

核函数是一种距离公式，它可以用来生成特征。核函数首先在samples上找1个landmark，然后计算其他所有数据同这个landmark的核函数距离，之后将这个距离作为一个特征使用。

概率和似然

已知参数对结果的预测是概率。
已知结果参数的取值概率是似然。

在已知某个参数a时，事件A会发生的条件概率可以写作P(A;a)，也就是P(A|a)。我们也可以构造似然性的方法来表示事件A发生后估计参数a的可能性，也就表示为L(a|A) = P(A|a)。

似然函数乘以一个正常数还是似然海曙，不必满足归一化条件。

极大似然求解：连乘所有似然求最大值

逻辑回归

二分类，$y = \sigma (z) = \frac{1}{1+e^{-z}}$。
损失函数使用负的交叉熵，也就是似然函数（推导过程）。

如果用梯度上升求解就是极大似然。

如果梯度下降就是负似然，正常的二分类交叉熵。

使用极大似然或者交叉熵的原因：
1、极大似然。
2、为什么不用平方损失函数，收敛速度要更快，平方的梯度带sigmoid的导数（小于0.25（f*(1-f)；非凸函数，局部最优解多。 与多层感知器的关系：
前者为sigmoid function，后者为step function。
一种是最大似然，贝叶斯思想。另一种是函数拟合。

解决非线性问题要加入核技巧。

SVM

目标是训练一个间隔最大化的分类器。间隔是指两类样本中离分类平面最近的点。

训练数据线性可分的时候，使用硬间隔最大化。
目标函数2/||W||^2 subject to 正类 W^T X + b >= 1

训练数据近似线性可分的时候，使用软间隔最大化。
目标函数2/||W||^2 + C∑$ subject to 正类 W^T X + b >= 1-$

训练数据不可分的时候，使用核技巧及软间隔最大化。

对偶：引入核技巧，内积。求解方便。

机器学习

阅读 53 更新于 4 月 29 日

赞收藏

本作品系原创，采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议

北极网友阿伟

啦啦啦啦啦

1 声望

0 粉丝

关注作者

0 条评论

得票数最新

提交评论

你知道吗？

注册登录

北极网友阿伟

啦啦啦啦啦

1 声望

0 粉丝

关注作者

宣传栏

核函数

概率和似然

已知参数对结果的预测是概率。
已知结果参数的取值概率是似然。

似然函数乘以一个正常数还是似然海曙，不必满足归一化条件。

极大似然求解：连乘所有似然求最大值

逻辑回归

二分类，$y = \sigma (z) = \frac{1}{1+e^{-z}}$。
损失函数使用负的交叉熵，也就是似然函数（推导过程）。

如果用梯度上升求解就是极大似然。

如果梯度下降就是负似然，正常的二分类交叉熵。

解决非线性问题要加入核技巧。

SVM

目标是训练一个间隔最大化的分类器。间隔是指两类样本中离分类平面最近的点。

训练数据线性可分的时候，使用硬间隔最大化。
目标函数2/||W||^2 subject to 正类 W^T X + b >= 1

训练数据近似线性可分的时候，使用软间隔最大化。
目标函数2/||W||^2 + C∑$ subject to 正类 W^T X + b >= 1-$

训练数据不可分的时候，使用核技巧及软间隔最大化。

对偶：引入核技巧，内积。求解方便。

人工智能自动驾驶神经网络机器学习数据挖掘 tensorflow

机器学习概念

核函数

概率和似然

逻辑回归

SVM

北极网友阿伟

0 条评论

北极网友阿伟

宣传栏

目录

核函数

概率和似然

逻辑回归

SVM

热门推荐