机器学习常用概念梳理

2021-01-30 09:05:20 ⋅ 20738 ⋅ 0 ⋅ 0

一、算法术语

1、数据集、训练集、验证集和测试集

数据集（data set）是机器学习过程中的所有数据的集合。数据集分为训练数据和测试数据。
测试数据集和为测试机（Test set），是需要应用模型进行预测的那部分数据，是机器学习所有工作的最终服务对象。
为了防止训练出来的模型只对训练数据有效，一般将训练数据又分为训练集（Trainning set）和验证集（Validation set），训练集用来训练模型，而验证集一般只用来验证模型的有效性，不参与模型训练。

在监督模型中，训练集和验证集都是事先标记好的有标签数据，测试集是无标签的数据。

file

二、参数和超参数

参数是w和b，我们训练神经网络的目的就是要得到参数 w和b。

神经网络中的超参数主要包括：
file

其中神经网络的学习速度就是代价函数的成本值的下降快慢，而最后的分类结果就是分类正确率也就是预测准确率。

超参数 2、3、4、7 主要影响的是神经网络的分类正确率；9 主要影响代价函数曲线下降速度，同时有时也会影响正确率；
1、8、10 主要影响学习速度，这点主要体现在代价函数曲线的下降速度上；5/6/11主要影响分类准确率和训练用总体时间。

其实在实际应用中，寻找最合适的超参数是非常重要也非常大的工程。很多的时间和精力都花在了调配这些超参数上面。

三、F1 分数

预测精准度也叫作查准率（Precision）。
除了查准率外，还有一个叫做查全率（Recall）的衡量手段，查全率又叫做召回率。
F1分数（F1 score）:综合了查准率和查全率，又称平衡F分数。

为者常成，行者常至

机器学习常用概念梳理

一、算法术语

1、数据集、训练集、验证集和测试集

二、参数和超参数

三、F1 分数

AI

作者：Corwien

专栏推荐

机器学习常用概念梳理

一、算法术语

1、数据集、训练集、验证集和测试集

二、参数和超参数

三、F1 分数

添加附言

AI

作者：Corwien

专栏推荐