介绍 10 种最常见的机器学习算法（第 2 部分）

terry 2年前 (2023-09-27) 阅读数 152 #数据结构与算法

1。朴素贝叶斯（Naive Bayes）

朴素贝叶斯是一种基于贝叶斯定理的简单概率分类器（分类也叫监督学习。所谓监督学习的目的就是从已知的样本特征信息中推断出可能的输出数据来完成分类。相反，聚类问题称为无监督学习）

朴素贝叶斯假设样本的所有特征彼此独立，互不影响，这在现实世界中并不总是正确的数据。尽管有这样的假设，朴素贝叶斯在许多实际应用中表现良好。

该算法根据输入特征值使用贝叶斯定理计算给定类别的概率。贝叶斯定理指出：

后验概率 = (似然*先验概率)/标准化常数

即后验概率与先验概率和相似度的乘积成正比。

朴素贝叶斯算法可以用不同类型的概率分布来实现，例如高斯、Polynomial、伯努利。高斯朴素贝叶斯适用于连续数据，多项式朴素贝叶斯适用于离散数据，伯努利朴素贝叶斯适用于二进制数据。

朴素贝叶斯的主要优点是简单和高效。它易于实现，并且比其他算法需要更少的训练数据。它在高维数据集上也表现良好，并且可以处理缺失数据。

朴素贝叶斯的主要缺点是假设特征彼此独立，这在实际数据中通常是不正确的。这可能会导致预测不准确，尤其是在特征高度相关的情况下。此外，朴素贝叶斯对数据集的不相关特征很敏感，这可能会降低其性能。

简而言之，朴素贝叶斯是一种基于贝叶斯定理的简单高效的机器学习算法，用于分类任务。它在高维数据集上表现良好，并且可以处理缺失数据。缺点是它假设函数是独立的。如果数据不独立，就会导致预测不准确。

2.KNN

K 最近邻 (KNN) 是一种简单但功能强大的算法，用于机器学习中的分类和回归任务。它基于这样的想法：相似的数据点往往具有相似的目标值。该算法的工作原理是找到最接近给定输入的 k 个数据点，并使用最接近数据点的多数类或平均值来进行预测。

构建 KNN 模型的过程从选择 k 值开始，它是预测时考虑的最近邻居的数量。然后将数据分为训练集和测试集，训练集用于查找最近邻居。为了预测新的输入，该算法计算输入与训练集中每个数据点之间的距离，并选择 k 个最接近的数据点。然后，将最近数据点的多数类或平均值作为估计值。

KNN 的主要优点是简单性和灵活性。它可用于分类和回归任务，并且不对底层数据分布做出任何假设。它还可以处理高维数据，并且可以用于监督和非监督学习。

KNN 的主要缺点是其计算复杂性。随着数据集大小的增加，查找最近邻居所需的时间和内存也大大增加。而且，KNN 对 k 的选择很敏感，很难找到 k 的最佳值。

总之，KNN 是一种简单但功能强大的算法，用于机器学习中的分类和回归任务。

3.K-means（K-means）

K-means 是一种用于聚类的无监督机器学习算法。聚类是将相似的数据点分组在一起的过程。 K-means 是基于中心的算法或基于距离的算法。我们计算将点分配给簇的距离。

该算法通过随机选择 k 个中心来工作，其中 k 是要创建的簇的数量。然后将每个数据点分配给最接近中心的簇。分配所有点后，中点将重新计算为簇中所有数据点的平均值。重复这个过程，直到中心不再移动或者点的分布不再改变。

K-means 的主要优点是简单性和可扩展性。它易于实现并且可以有效地处理大型数据集。此外，它是一种快速且鲁棒的算法，广泛应用于图像压缩、市场细分和异常检测等许多应用中。

K 均值 的主要缺点是它假设簇是球形且大小相等，但对于实际数据而言并不总是如此。此外，它对中心的初始位置和k的选择很敏感。它还假设数据是数字，如果数据不是数字，则必须在使用算法之前对其进行转换。

简而言之，K-means 是一种用于聚类的监督机器学习算法。这是基于相似的数据点往往靠近的想法。

4。降维算法

降维是一种可用于减少数据集中特征数量同时保留重要信息的技术。它用于提高机器学习算法的性能并促进数据的可视化。有多种降维算法可用，包括主成分分析 (PCA)、线性判别分析 (LDA) 和 t 分布随机邻域嵌入 (t-SNE)。

主成分分析 (PCA) 是一种线性降维技术，它使用一组相关变量到一组称为主成分的线性不相关变量的正交变换。 PCA 对于识别数据模式和降低数据维度而不丢失重要信息非常有用。

线性判别分析 (LDA) 是一种监督降维技术，用于查找分类任务中最具判别性的特征。 LDA 最大化低维空间中类之间的分离。

t-分布式随机邻域嵌入 (t-SNE) 是一种非线性降维技术，特别适合表示高维的数据。高维使用数据点对之间的概率分布来找到保留数据结构的低维表示。

降维技术的主要优点

是它们可以通过降低计算成本和过度拟合的风险来提高机器学习算法的性能。他们还可以通过将维度数量减少到更易于管理的数量来简化数据可视化。

降维技术的主要缺点是在降维过程中丢失重要信息。此外，降维技术的选择取决于数据类型和手头的任务，因此很难确定要保留的最佳维数。

总之，降维是一种在保留重要信息的同时减少数据集中特征数量的技术。有许多可用的降维算法，例如 PCA、LDA 和 t-SNE，它们对于识别数据中的模式、提高机器学习算法的性能和促进数据可视化非常有用。然而，在降维过程中可能会丢失重要信息，并且降维技术的选择取决于数据的类型和手头的任务。

5. 梯度提升算法和 AdaBoosting 算法

梯度提升和 AdaBoost 是两种流行的联合机器学习算法，用于分类和回归任务。这两种算法都通过组合多个弱模型来创建一个强大的最终模型。

梯度提升是一种在前向阶段构建模型的迭代算法。它首先将一个简单的模型（例如决策树）拟合到数据中，然后添加其他模型来纠正先前模型中的错误。每个新模型都相对于先前模型预测的损失函数拟合负梯度。最终模型是所有单独模型的加权和。

AdaBoost 是自适应提升的缩写，是一种类似的算法，也在高级阶段创建模型。它专注于通过调整训练数据的权重来提高弱模型的性能。在每次迭代中，算法都会关注被先前模型错误分类的训练样本，并调整这些样本的权重，以便它们在下一次迭代中更有可能被选择。最终模型是所有单独模型的加权和。

梯度增强和 AdaBoost 在许多实际应用中都能产生高度准确的模型。

这两种算法

的主要优势之一是它们可以处理多种类型的数据，包括分类数据和数值数据。此外，两种算法都可以处理缺失值的数据，并且对异常值具有鲁棒性。
这两种算法的主要缺点之一是它们的计算成本很高，特别是当集成中有许多模型时。他们对基础模型和学习率的选择也很敏感。
总之，Gradient Boosting 和 AdaBoost 是两种流行的集成机器学习算法，可用于分类和回归任务。这两种算法都通过组合多个弱模型来创建一个强大的最终模型。这两种方法都可以在许多实际应用中产生非常准确的模型，但它们计算量大，并且对基础模型和学习率的选择敏感。