机器学习分为哪三类(监督学习、无监督学习、强化学习)?
01 术语
本节概述机器学习及其三个分类(监督学习、无监督学习和强化学习)。首先,与机器学习相关的术语包括人工智能(AI)、机器学习(ML)、强化学习、深度学习等。这里对这些术语进行了简要分类。
AI 代表人工智能,其定义因研究者而异。一般指“类人智能系统以及配备该系统的机器人”。实现人工智能的一种方法是通过机器学习。
机器学习可以简单地描述为“向系统提供数据(称为训练数据或训练数据),并通过数据自动确定系统的参数(变量值)”。相反,基于规则的系统是非机器学习系统的一个例子。在基于规则的系统中,人们必须明确定义实现代码中存在的分支条件的参数,例如if语句。
另一方面,机器学习会根据训练数据自动确定代码中的参数,以确保系统良好运行。之所以称为机器学习,正是因为系统可以根据训练数据计算并确定系统运行所需的参数。
强化学习是机器学习的一种。机器学习可以分为三大类:监督学习、无监督学习和强化学习。我们稍后将讨论这三个分类,但在这里认识到强化学习是机器学习的一部分就足够了。
接下来是深度学习。深度学习是执行机器学习的算法之一。机器学习算法包括逻辑回归、支持向量机(SVM)、决策树、随机森林、神经网络等。深度学习是神经网络的一种。
最后是强化的深度学习。深度强化学习是强化学习和深度学习的结合。
02 监督学习、无监督学习和强化学习
这里介绍了三种类型的机器学习(监督学习、无监督学习和强化学习)。
首先,我们来解释一下监督学习。
例如,“将手写数字排序为邮政编码”是一种监督学习。邮政编码分类系统将每个数字的手写图像分类为0到9之一。对诸如0到9的数据进行分类的目标称为标签或类别。这种类型的系统称为监督学习,因为预先提供的训练数据已预先标记有正确的标签。换句话说,带标签的训练数据成为系统的老师。
监督学习包括学习阶段和推理阶段。为了解释手写数字的分类,我们将以图为例(见图)。
▲图利用监督学习区分手写数字的示例
在学习阶段,准备大量从0到9的手写图像数据作为训练数据。训练数据有一个标签(取值0到9),根据标签可以找到关于手写数字图像的正确答案信息,例如“这个手写数字图像是1”。在学习阶段,当手写数字的图像被输入系统时,系统的参数被调整(学习)以尝试将输入图像分类为正确的标签。
在申请阶段,未标记的未知手写图像数据被输入系统。将图像分类为0到9的输出标签并给出结果。如果学习到了正确的结果,则当输入未知手写数字的图像时,系统将输出正确的数字标签。除了对手写数字进行分类之外,监督学习还可以用于对图像、音频和文本数据进行分类。
此外,除了上面例子中提到的分类任务之外,监督学习还用于回归等任务。
然后我们引入无监督学习。无监督学习的一个词是“聚类”。它将大量数据中的相似数据组合成组(称为聚类)。例如,“根据购买数据对客户进行分组的系统”就是无监督学习。通过根据购买历史的特征对客户进行分类,您可以为每个组实施不同的销售策略。
我们使用图表(见图)来说明购买数据分析的示例。假设存储了过去一年中每个客户的购买数量和平均消费金额的数据,并分析了该数据。根据这些数据,客户可以分为两类。 A组(左上角)是购买昂贵商品次数较少的组,B组(右下角)是重复多次但每次花费较少的组。
▲图使用无监督学习根据购买数据对客户进行聚类的示例
使用无监督学习进行聚类将有助于了解每个客户所属的群体,并为每个群体实施很好的销售策略(尽管部分公司还需要更多详细分析)。除了本例中提到的聚类之外,无监督学习还用于降维和推荐系统。
最后,我们讨论强化学习。强化学习是主要用于“构建时变系统控制规则”和“构建战斗博弈策略”的方法。例如,强化学习应用于机器人行走控制程序和围棋下棋程序中(见图)。
▲图形强化学习示例(围棋系统中的机器人行走控制)
在我们知道的例子中,可能更容易想象一个孩子学习骑自行车。当孩子学会骑自行车时,没有人教他牛顿力学等力学定律,以及骑自行车的详细方法。他也不需要观看视频来学习如何骑自行车。事实上,尝试自己骑自行车,并在多次失败的情况下找到方法。
强化学习就像学习骑自行车的例子。它是在不知道控制对象的物理规律的情况下,通过重复试错来学习所需的控制方法的学习方法。
在强化学习中,没有标记数据作为训练数据,但这并不意味着根本没有监督信息。该系统根据强化学习过程工作,并在达到预期结果时发出称为奖励的信号。例如,控制机器人行走时,奖励就是可以行走的距离。在围棋游戏程序中,奖励是输赢的结果。失败的奖励是负值,也称为惩罚。
要学习如何通过监督学习来控制机器人行走,需要尽可能多的样本“如果腿部关节处于这个角度且速度为一定值,那么电机A这样旋转”,并提前给出展示正确的做法。然而,当机器人行走时,很难给出正确的方法来预控制电机每时每刻改变状态。
另一方面,在强化学习中,行走的距离作为步态控制系统的奖励,并且多次重复试验。
这样,强化学习系统本身就会根据重复的试验和获得的奖励来改变控制规则,这样就有了“如果之前试验的一个改变让我走得更远,那么这个改变就是正确的”的基础。因此,可以逐渐使机器人在不教它走路的情况下行走更远的距离。
即使在围棋这样的格斗游戏的策略构建中,也不需要把每个阶段的数据都传授给强大的老师,只需以成功或失败作为奖励重复实验即可。在此过程中,强化学习系统逐渐改变了游戏的玩法并变得更加强大。
学到的围棋或将棋系统比设计者本身更强大,这可以通过强化学习轻松实现。光听这个解释就让强化学习像变魔术一样,但在实践中却出现了各种各样的问题。
强化学习特别适合“构建时变系统控制规则”和“构建战争游戏策略”。本书以以前的“系统控制”为目标任务,通过编写适当的程序来教授强化学习。
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。