机器学习笔记

一、关键术语

特征、训练集、测试集

二、机器学习任务:

  • 1、监督学习(用来预测目标变量):分类、预测数值型数据(回

    归)

  • 2、无监督学习:聚类、密度估计

    三、算法

    1、监督学习:k-近邻算法、线性回归、朴素贝叶斯算法、局部加权线性回归、支持向量机、Ridge回归、决策树、Lasso最小回归系数估计.

    2、K-均值、最大期望算法、DBSCAN、Parzen窗设计.

    四、应用学习示例

    1、K-均值算法(聚类)

    基本思想:通过迭代寻找k个聚类的一种划分方案,使得用这k个聚类的均值来代表相应各类样本时所得的总体误差最小。

    算法具体实现:

  • (1)适当选择C个类的初始中心。

  • (2)在第K此迭代中,对任意一个样本,求其到C各中心的距离,将该样本归到距离最短的中心所在的类。

  • (3)利用均值等方法更新该类的中心值。

  • (4)对于所有的C个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。

数据集来源:

http://scikit-learn.org/dev/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs

最后更新于

这有帮助吗?