机器学习实战 Machine Learning in Action
对于基于树的算法,首先应当了解分支或生成子节点的依据是什么,决策树也一样。决策树算法通过度量使用哪一个属性可以最大化区分数据集中的记录,作为分支选择的依据。一般有信息增益、增益率、基尼指数三种划分依据。
待填
待填
待填
待填
待填
待填
巨坑
对于带标记数据集dataSet,和未标记数据X,计算X与dataSet中每一个记录的距离,将这些距离从小到大排序,统计距离最小的K个有标签数据中每种标记类别的次数,将出现次数最多的一个类别作为未标记数据X的预测
又一个天坑
对于聚类问题,K-Means聚类先根据数据分布随机初始化k个聚类中心,对于每一个数据项,将其簇划分设为距离最近的聚类中心的类别,再根据簇划分结果,修改每一个簇的聚类中心,直到簇划分不再改变为止
统计并从大到小排序所有出现的模式,依据模式出现的频度,对每一个事务/记录中出现的模式进行排序,并按照前缀树的思想构造FP树,最常出现的模式总是靠近根结点,从根节点到每一个节点的路径都是一个模式,该节点计数代表该模式出现的次数