AI作业1-ML基础

1.监督学习:就是计算机通过示例进行学习,给计算机一份已经分类好的数据,让计算机学习过往数据的特征,并对未来进行合理的预测。 

   无监督学习:计算机通过未进行分类也未进行标记的数据进行学习,所以机器本身必须具有对数据的分类能力,在所提供的大量的无规则数据中,机器通过自身来进行分类和学习,所以学习的结果具有一定的未知性。

2.分类和回归:两者均属于监督学习,都是对输入数据做出预测,两者的不同在于,分类问题的输出结果是物体的类别并且类别是离散且定性的,回归问题的输出结果是物体的值并且值是连续且定量的。

3.聚类:聚类是在没有训练的条件下,对一些没有标签的数据进行归纳分类。根据相似性对数据进行分组,以便对数据进行概括。

   降维:降维是试图压缩维度,并尽可能地保留分布信息。我们可以将其视为数据压缩,或者特征选择。

4.损失函数:就是用来度量模型的预测值f(x)与真实值Y的差异程度的运算函数,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的健壮性就越好。

5.训练集,测试集,验证集:三者之间存在递进关系,训练集就相当于对学习结果的初步检验,验证集就是在满足训练集的情况下,更深一步的对学习结果检验,测试集就是在学习完成之前的最后一次检验,完成之后便可以投入使用。

6.过拟合:具体表现就是最终模型在训练集上效果好;在测试集上效果差。模型泛化能力弱。

   欠拟合:欠拟合是指对训练样本的一般性质尚未学好。在训练集及测试集上的表现都不好。

7.经验风险:即训练集中所有样本点的损失函数的平均值。

   期望风险:期望风险是一个全局概念,表示决策函数对所有样本预测能力的大小。经验风险是局部概念,表示决策函数对训练数据集里样本的预测能力。