机器学习常用概念梳理

一、算法术语

1、数据集、训练集、验证集和测试集

数据集(data set)是机器学习过程中的所有数据的集合。数据集分为训练数据和测试数据。
测试数据集和为测试机(Test set),是需要应用模型进行预测的那部分数据,是机器学习所有工作的最终服务对象。
为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集(Trainning set)和验证集(Validation set),训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。

在监督模型中,训练集和验证集都是事先标记好的有标签数据,测试集是无标签的数据。

file

二、参数和超参数

参数是w和b,我们训练神经网络的目的就是要得到参数 w和b。

神经网络中的超参数主要包括:
file

其中神经网络的学习速度就是代价函数的成本值的下降快慢,而最后的分类结果就是分类正确率也就是预测准确率。

超参数 2、3、4、7 主要影响的是神经网络的分类正确率;9 主要影响代价函数曲线下降速度,同时有时也会影响正确率;
1、8、10 主要影响学习速度,这点主要体现在代价函数曲线的下降速度上;5/6/11主要影响分类准确率和训练用总体时间。

其实在实际应用中,寻找最合适的超参数是非常重要也非常大的工程。很多的时间和精力都花在了调配这些超参数上面。

三、F1 分数

预测精准度也叫作查准率(Precision)。
除了查准率外,还有一个叫做查全率(Recall)的衡量手段,查全率又叫做召回率。
F1分数(F1 score):综合了查准率和查全率,又称平衡F分数。

为者常成,行者常至