吃瓜教程day01 机器学习(周志华)Chapter1~2

第一章 绪论

1.2 基本术语

数据集:某组记录的集合

特征向量:即一个示例,反映事件或对象在某方面的表现或性质的事项

训练数据:某个学习算法训练过程中使用的数据

训练样本:每个样本

学习任务种类:

       根据预测值的种类是离散值还是连续值:“分类”或“回归”

       根据训练数据是否拥有标记信息:监督学习和无监督学习

泛化能力:学得模型适用于新样本的能力

独立同分布iid:假设样本空间中全体样本服从一个未知“分布”D,则获得每个样本都是独立的

1.4 归纳偏好

概念:学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”即引导算法确立正确偏好的原则

常见的有:奥卡姆剃刀原则

奥卡姆剃刀原则:“若有多个假设和观察一致,则选最简单那个”

没有免费的午餐定理(NFL定理):前提是所有问题出现的机会等同、或者所有问题同等重要(假设f均匀分布),此定理寓意是:脱离具体问题而空泛谈论哪个算法更好是毫无意义的

第二章 模型估计与选择

2.1 经验误差与过度拟合

训练误差/经验误差:学习器在训练集上的误差

泛化误差:学习器在新样本上的误差

模型过度拟合:即树的规模变得太大,即使训练误差还在继续降低,但是检验误差开始增大。

好的模型必须具有低训练误差/再代入误差/表现误差和低泛化误差/检验误差。(相应内容的笔记见数据挖掘第四章)

数据挖掘导论 Chapter4 读书笔记_Aria_So的博客-CSDN博客数据挖掘导论 Chapter4 读书笔记

过度拟合成因:噪声导致、缺乏代表性样本、大量的侯选属性和少量的训练记录。

过度拟合是无法避免的,只能缓解或减小风险。

2.2 评估方法

4种方法:保持方法、随机二次抽样、交叉验证、自助法

留出/保持方法Holdout:按比例划分训练集和检验集。训练集过小而模型方差变大;验证集过小而准确率不可靠,置信区间较宽。

随机二次抽样Random Subsampling:多次重复保持方法求平均来改进性能估计。

交叉验证cross-validation:假设把数据分为相同大小的k个子集,选择一个子集作为验证集,其他子集作为训练集,该过程重复k次,使每份数据都用于检验恰好一次。则总误差是k次运行的误差之和。缺点是计算量大且性能估计的方差偏高。

自助法Bootstrap:有放回抽样地抽取训练记录(63.2%),没抽中的记录作为检验集的一部分,重复以上过程b次,得到b个自主样本。主要应用于在数据集较小、难以有效划分训练集测试集的时候有用;此外能从初始数据集中产生多个不同的数据集,对集成学习等方法有好处。但也改变了初始数据集的分布,引入估计偏差

总准确率计算方法有:0.632自助

调参与最终模型:机器学习常涉及两类参数:一类是算法参数(超参数),由人工设定多个参数候选值;另一类是模型参数,数目很多(如深度学习可以有上百亿个参数),通过学习来产生多个候选模型(如神经网络在不同的轮数停止训练)

2.3 性能度量

相关笔记见数据挖掘第四章笔记

数据挖掘导论 Chapter1~2读书笔记数据挖掘导论 Chapter4 读书笔记_Aria_So的博客-CSDN博客

补充知识:

精确度和召回率是一对矛盾的度量,一般来说精确度越高则召回率越低。精确度-召回率曲线即PR曲线,根据曲线下面积的大小来判断模型优劣(面积越大,模型越优)。平衡点BEP也可以作为比较模型的标准,BEP时的P与R越大则模型越优。

平衡点(Break-Even Point,BEP)是当精确度=召回率时取的值,即PR曲线和45°直线交点。

2.4 比较检验

由于数理统计知识较扎实,此处省略。