机器学习常用概念梳理
一、算法术语
1、数据集、训练集、验证集和测试集
数据集(data set)是机器学习过程中的所有数据的集合。数据集分为训练数据和测试数据。
测试数据集和为测试机(Test set),是需要应用模型进行预测的那部分数据,是机器学习所有工作的最终服务对象。
为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集(Trainning set)和验证集(Validation set),训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。
在监督模型中,训练集和验证集都是事先标记好的有标签数据,测试集是无标签的数据。
二、参数和超参数
参数是w和b,我们训练神经网络的目的就是要得到参数 w和b。
神经网络中的超参数主要包括:
其中神经网络的学习速度就是代价函数的成本值的下降快慢,而最后的分类结果就是分类正确率也就是预测准确率。
超参数 2、3、4、7 主要影响的是神经网络的分类正确率;9 主要影响代价函数曲线下降速度,同时有时也会影响正确率;
1、8、10 主要影响学习速度,这点主要体现在代价函数曲线的下降速度上;5/6/11主要影响分类准确率和训练用总体时间。
其实在实际应用中,寻找最合适的超参数是非常重要也非常大的工程。很多的时间和精力都花在了调配这些超参数上面。
三、F1 分数
预测精准度也叫作查准率(Precision)。
除了查准率外,还有一个叫做查全率(Recall)的衡量手段,查全率又叫做召回率。
F1分数(F1 score):综合了查准率和查全率,又称平衡F分数。
为者常成,行者常至
自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)