机器学习之多标签分类和多分类问题
一、前言
最近⼏年,分类问题和回归问题在机器学习 领域受到⼴泛关注。作为分类问题的⼀个变种,多标签分类也
是个⽐较常⻅的问题,⽐如⼀部电影可以同时被分类为动作⽚和犯罪⽚ , ⼀则新闻可以同时属于政治和法
律等等。简单说,多标签分类就是同⼀个实例,可以有多个标签,或者被分为多个类。
本⽂就分享⼀下数据科学家Shubham Jain对解决多标签分类问题的⽅法,⾸先会直观解释何为多标签分类
问题,然后分享解决多标签分类问题的3种⽅法以及它们的Python实现,最后附以案例研究。
1、什么是多标签分类?
我们先看看下面这张图。
如果我问你下面这张图包含一座房子吗?选项会是YES或NO。
再想想另外一种情况,比如和这张照片相关的所有东西(或标签)都有什么?像这种类型的问题,即我们有一组目标变量,就被称为多标签分类问题。那么前面这两种情况有区别吗?很显然有,在第二种情况中,任何图像都可能包含不同图像的多个不同的标签。在我们深入了解多标签之前,先讲讲它和多类问题之间的区别。
2. 多标签 VS 多类
我们举个例子以及下面这张图来理解这二者的区别。
对于任何一部电影,负责电影审核的官方机构(比如印度的印度电影分级中央委员会)会根据电影内容为电影颁发上映证书。比如说,你看看上图这张图,你会发现电影被划分为“U%2FA”类(意为“12岁以下儿童需在父母陪同下观看”)。另外还有其它类型的证书类别,比如“A”(仅限成人观看)或“U”(不受限制的公开放映),但是肯定每部电影只能被划分为其中的一个类别。
简而言之,有多个类别,但只能将每个实例划分到一个类别,那么这种问题就是我们所说的多类分类问题。
接着你再看看这张图,会发现这部电影还被归类为喜剧和爱情剧。但不同的是,这一次每部电影都能被归类为一个或多个不同的种类。
因此,可以将每个实例分类到多个种类,那么这种类型的问题就是我们说的多标签分类问题,在这种问题中我们有一组目标变量。
很好!现在你应该能分清多标签和多类问题的区别了。下面我们瞧瞧怎么应对这种类型的问题。
相关文章:
知乎|多标签(multi-label)数据的学习问题,常用的分类器或者分类策略有哪些?
机器学习:多标签学习及skmultilearn库
为者常成,行者常至
自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)