战略产品经理需要了解的十大机器学习算法

terry 3年前 (2023-09-27) 阅读数 159 #数据结构与算法

谈论基础的机器学习算法和相关的适用场景，帮助战略产品找到解决问题的最基本的认知思路，帮助大家了解更多。很容易理解十大机器学习算法的思想并了解其应用场景。

理解机器学习的另一个重要点是，在与算法工程师交流时，“知之甚少”，而你不能成为“黑盒产品经理”，甚至不能称其为战略产品。不能对自身的经营指标和经营方向负责。

所以现在我们将重点从以下几个部分向您介绍策略产品需要了解的十大机器学习算法，以便您轻松上手。如果你有兴趣，我建议你阅读机器学习方面的专业书籍。如果有帮助的话谢谢大家，谢谢大家的帮助、点赞、收藏和评论。

1. 机器学习的分类

1.定义本质

在介绍机器学习的分类之前，我们先来了解一下机器学习的本质是什么。简单来说，它就是机器的历史。从数据和知识中总结出的常规经验用于提高系统的测量能力。例如，我们将打开“好西瓜”的经验以[数据]的形式（考虑到西瓜的茎、图案和敲击的坚实声音）传递给模型。当我们遇到新的瓜时，模型会给我们结论来判断它是否是“好瓜”。 因此，机器学习是“学习算法”的研究。

2。机器学习的分类及关联关系

机器学习算法大致可以分为三类：监督学习算法、无监督学习算法和强化学习算法。

1）监督学习算法 – 监督学习算法

简单地说，在监督学习训练过程中，可以从训练数据集中学习或建立一个模式（函数/学习模型），并可以基于该模式推导出新的示例就这个图案。。

监督学习需要为算法提供一些解决方案所需的训练数据，这些数据成为所谓的标签和标记；简单来说，必须有自变量（X）和因变量（Y），可以用于分类和回报。常见的监督学习算法包括：K邻域、线性回归、逻辑回归、支持向量机（SVM）、决策树和随机森林以及神经网络。

2）无监督学习算法 – Unsupervised Algorithms

无监督学习的训练数据不需要标注，算法自动学习，无需监督；训练期间的数据仅包含自变量，但没有相应的因变量。

无监督联合学习：聚类算法（K-meansK-means、最大期望算法）、关联规则学习（Apriori、Eclat）等； 例如京东电商平台，根据C端用户的购物频率、平均客单价、购物订单数以及年均消费能力等，将这些用户自动“聚类”到不同的类别，然后手动标记。

3）强化学习算法 – 强化算法

该算法主要基于决策训练，根据输出结果（决策）的成功或错误来训练自身，以负奖励的形式接受惩罚。它必须自己学习最佳策略，以随着时间的推移最大化回报。

比如大家熟知的“阿尔法围棋”，就是不断地与优秀的棋手对弈。通过输赢比赛，你可以训练自己采取下一步行动，即胜率最高的行动。美国有一部电视剧叫《嫌疑人追踪》。也是围绕这个角度来描述的，这也是最接近我们所说的人工智能的算法类型。

2。机器学习算法的基本分类

1.线性回归

首先明白一个概念，回归-回归和我平时理解的回归-回归的概念不同，这里回归指的是“分心”的意思。回归算法是相对于分类算法而存在的，并且与我们想要预测的因变量 y 的类型有关。

如果y是一个分类离散变量，比如预测性别男/女、预测用户是否会点击推荐位置、预测某人夹克的颜色（红/绿/黄/黑....），然后利用分类模型算法对数据进行训练并做出相应的预测；
如果y是连续变量，比如京东购物用户的年龄（25、40、60）、购物用户的年收入水平（30万/50万/100万/1000万……）、时长用户在推荐的 feed 流中停留的时间（5s/10s/15s...），我们需要使用回归模型算法来预测训练数据；

但是分类问题实际上与回归有关。问题是可以相互转化的。例如，如果上面提到的点击行为出现在推荐Feed中，就变成了对C端用户点击概率的预测，从10%、11%到100%，这转化为50%以上。为了预测点击量，如果低于50%就意味着没有点击量，我们就从回归模型问题变成分类问题。

线性回归是一种入门性机器学习算法。作为概述，可以使用两个变量的简单线性方程。从下图中我们可以得到两个变量的线性方程y=a+bx。给定两个a和b。绘制参数时，在坐标轴上绘制一条直线；可以看到图中有很多散点图。我们需要使用直线来尽可能地对齐数据点。这称为线性回归。

然而，我们还发现上述所有散点图都不能被二次方程相交。就像现实世界中的数据一样，我们只能尽可能地找到规律，找到最合适的直线；所以难免会发现预测的理论值与实际值存在差异。这就是我们所说的“误差”，所以我们经常在二次回归方程中加一个尾部来计算误差c，即：y=a+bx+c。

由于数据实际上并不是落在一条直线上，而是分布在周围，所以要找到一条“合适的曲线”，我们需要找到a和b，而要找到a和b，我们需要使用这个概念的损失函数。

误差说白了就是实际值和预测值的差值，也可以理解为距离；我们找到上图中每个点的个体误差值，并计算出对应的值：

然后将每个点的平方相加，这样就可以充分量化曲线上直线对应的点与实际值。公式表示如下：

这个公式是残差平方和 - SSE（误差平方和），在机器学习中这是回归问题中使用的损失函数。它是一个用来衡量回归模型误差的函数，也就是我们想要的“直线”。评价依据成都市标准。该函数的值越小，直线就越适合我们的数据。 最终如何找到最佳参数a和b？一般来说，我们需要使用梯度下降法或者最小二乘法来求。我们稍后会分享，这里不再赘述。

2。逻辑回归

我已经告诉你逻辑回归经常被用来解决分类问题。业界常用来判断用户是否点击了搜索结果页面/推荐信息流，以及判断客户是否存在金融系统的过错。

记住一句关键词：分类本质上是利用逻辑回归的目的和结果，中间过程本质上仍然是回归。为什么这么说？例如，京东推荐系统将用户能够点击推荐位置的商品的“概率”归一化为（0.1），然后给可能性加上0.5的阈值，例如如果点击预测的概率高于0.5则预测被点击，低于0.6则预测不被点击。

可以看到所有实际点值都落在y=1和y=0上（纵坐标为0或1）。如果采用单一的单变量二次线性方程，调节效果会比较差。只有少数点落在一条直线上。

其实逻辑回归一般都是使用sigmoid函数来进行调整。 sigmoid函数本身就是一个s形曲线函数。在取值范围(-∞,+∞)之间这在于 y = 0 和 y = 1 之间有一个平滑的过渡，它用来表示预测的概念，即事件发生的“概率”正在发生。

多元线性方程的一般形式可以表示为下图，一般可以简写为矩阵形式Y = Xβ：策略产品经理必知的十大机器学习算法

添加加权特征求和 1）例如京东的推荐中系统中，如果在预测的时候点击了这个行为，那么逻辑回归的形式就变成了如下条件公式的预测：

整个逻辑回归函数就构造出来了，下面是通过梯度。采用下降法求解β，得到最佳位置参数，构造拟合所有点的最佳函数。我们将在单独的文章中介绍梯度下降法；

3。 K 近邻算法 KNN-KNearestNeighbor

KNN 是一种比较入门的机器学习分类算法。总体思路比较简单。其思想核心是中国古代思想：“近赤者赤，近墨者黑”。 KNN中的K是指最近的K个点的数量，用于预测数据点的位置。 K值的选择是影响预测准确性的关键因素。

KNN 所做的就是选择最接近预测目标点的 k 个点，并查看这 k 个点的大多数颜色是什么形状。这里我们可以通过欧氏距离来测量并计算出预测的预测点与K点之间的距离。

情况1：如果我们将K设置为1，我们可以看到预测点最接近黄色“+”。当我们确定点的类型时，我们确定预测点为“+”

情况2：如果我们将K设置为5，我们可以看到最近的点是1个“+”，1个“O”而3有“△”，那么我们的预测点就确定为“△”

结论：由此可知，K的选择不同，结果会大不相同，所以选择K值就成了KNN算法钥匙。

KNN 的分类极限是非线性的。 K越小，越容易过拟合。我们看到，当 K = 1 时，预测将仅基于最近的单点。如果最近的点是相反的噪声，此时的预测就会出错，会增加计算的复杂度，鲁棒性也会比较差。然而，如果 K 相对较大（例如 K = 100），此时它的尺寸将会过小。模型计算非常简单，分类的边界也会比较平滑。

因此，寻找正确K的过程是一个不断调整参数的过程。比较经典、合适的方法是N折交叉验证方法。下图是五重交叉验证，讲的是样本集的分类。将数据分成五等份，其中四份用作训练集，一份用作验证集。设置参数以创建 5 个相等的部分。

具体：

第一步：将样本集分为5个小子集，编号为train1、train2、train3、train4、train5；
第二步：首先使用train1、train2、模型train3和train4，检索模型1并在train5上计算误差error1；
第三步：使用train1、train2、train3、train5进行建模，得到model2并计算train4上的误差error2；
……..
重复上述步骤准备5个模型，将5个误差值相加并除以5得到平均误差。

交叉验证完成后，我们设置超参数，从k=1开始尝试，计算K=1时的平均误差值，每次将K增加2，最后选择误差最小的K值（因为随机地随着K的增加，误差值先变小，然后变大）。

这是一个想法。我们通常对K取奇数而不是偶数，因为偶数可以使点数相等（例如有4个点，其中2个有黄色“+”，2个有“O”），所以无法判断Predict点是属于黄色“+”还是“O”，所以尽量避免这个问题。

最后一点要注意的是，点要“标准化”。如果不标准化，积分可能会受到严重影响。一般采用极差法来消除两个级别或标准。标准差法。

KNN本身没有训练过程，也没有模型参数，所以康复过程是基于到已知样本点的距离。

KNN的优点是原理简单，比较容易实现。非线性规则分类效果优于高级分类器。缺点也非常明显：它必须存储所有数据集并计算每个预测。预测和已知点的距离非常耗时，并且不适合特征空间维度较高的场景类型。

3.总结回顾

今天我们简单回顾一下十大机器学习算法中的前三个。对于战略产品经理来说，了解其算法的原理、逻辑思维和应用场景是非常有必要的。策略产品解决业务场景时，必须在抽象范畴中思考具体问题，对症下药，满足客户需求。只有这样，才能真正提高解决问题的能力。

与线性回归一样，我们用它来进行线性预测。例如，预测信用卡用户的生命周期，根据收入、年龄、居住地区对用户进行评分；例如，我们使用逻辑回归来预测推荐系统的用户。点击行为：通过用户画像和线上/线下行为记录，预测用户是否会点击。理解内核的本质，其实就是工具场景的应用。

战略产品亚瑟

版权声明

本文仅代表作者观点，不代表Code前端网立场。
本文系作者Code前端网发表，如需转载，请注明页面地址。

上一篇：计算机视觉图像算法工程师应该了解什么？下一篇：为什么计算机需要操作系统？