博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
西瓜书-第10章-降维与度量学习
阅读量:4282 次
发布时间:2019-05-27

本文共 1030 字,大约阅读时间需要 3 分钟。

k近邻学习(kNN)

kNN在训练集中通过某种距离度量找到靠近测试样本的k个训练样本,再根据投票法或是平均法输出预测结果

kNN是懒惰学习(还有懒惰决策树)的著名代表,训练时间为0,即不需要训练。
kNN虽然简单,但泛化错误率不超过贝叶斯最优分类器的错误率的两倍。

降维(维数约简)

属性越多,维度越高,很多情况下高维度带来了维数灾难,这将带来数据样本稀疏、距离计算困难等问题,因此,我们需要通过降维来缓解维数灾难。

主成分分析(PCA)无监督的线性降维方法

PCA通过简单的向量减法矩阵-向量乘法将新样本投影低维空间中。

PCA最小的几个特征值的特征向量舍弃了,这是降维导致的结果,但是舍弃这些信息能使样本的采样密度增大,这也正是降维的重要动机,另一方面最小的特征值所对应的特征向量往往与噪声有关,舍弃它们也在一定程度上起到去噪的效果。
优势:实现快速简单,变种有KPCA和稀疏PCA等
缺点:新特征列不易解释
详见:

线性判别分析(LDA)监督线性降维方法

优势:LDA受到监督,可以(但不总是)提高提取特征的预测性能。 此外,LDA提供变化(即二次LDA)来解决特定的障碍。

缺点:与PCA一样,新特征列不易解释,您仍必须手动设置或调整要保留的组件数量。 LDA还需要标记数据,这使其更具情境性。

核化线性降维(非线性降维)

核主成分分析(KPCA)

引入了核函数
需对所有样本求和,计算开销大

流行学习(manifold learning)

优势:1)假设流形的存在,部分解决了高维数据分布的问题。

缺点:1)假设流形的存在,不能总是适合数据特点。

等度量映射(Isomap)

流形在局部上与欧式空间同胚,对每个点基于欧式距离找出近邻点,然后就能建立一个近邻连接图
k近邻图:指定近邻点个数例如欧式距离最近的k个点作为近邻点,从而得到一个k近邻图
e近邻图:指定距离阈值e,距离小于e的点被认为是近邻点,从而得到一个k近邻图

局部线性嵌入(LLE)

Isomap试图保持近邻样本之间的距离不同,LLE试图保持邻域内样本之间的线性关系

(全局)度量学习(metric learning)

度量学习的目标:学习出一个合适的距离度量

不同的度量学习方法针对不同目标获得“好”的半正定对称距离度量矩阵M
关于一个欧几里德空间V的一个基,我们把内积函数在基向量上的值写成的一个矩阵称为关于该基的度量矩阵。
最终就可以将原始空间通过度量矩阵M降维

转载地址:http://cibgi.baihongyu.com/

你可能感兴趣的文章
解密回声消除技术之二(应用篇)
查看>>
Speex编解码在Android上实现
查看>>
回音消除技术概述
查看>>
speex回音消除
查看>>
audio 声道路由策略分析
查看>>
Android Audio 代码分析- Audio Strategy
查看>>
DAPM之二: audio paths与dapm kcontrol
查看>>
Android音量控制曲线
查看>>
Android Tombstone/Crash的log分析和定位
查看>>
Android Native/Tombstone Crash Log 详细分析
查看>>
怎么更改安卓系统铃声级数大小
查看>>
怎么更改开机铃声的声音大小
查看>>
Linux内核驱动之GPIO子系统(一)GPIO的使用
查看>>
/sys/class/gpio 文件接口操作IO端口(s3c2440)
查看>>
shell脚本学习---nohup
查看>>
system系统调用的使用
查看>>
linux -- 进程的查看、进程id的获取、进程的杀死
查看>>
android暂停或停止其他音乐播放器的播放
查看>>
安卓系统定制常见问题解决
查看>>
Android系统默认值的设置
查看>>