20个最重要的机器学习算法的简单解释,每个算法不超过10秒钟。
来自 Pexels 的 Mike B
机器学习是一种数据分析方法,可以自动化模型开发过程。它是基于系统能够从数据中学习、识别模式并进行最小用户干预的决策的人工智能分支 [2]。
机器学习算法被广泛应用于各种应用程序中,包括电子邮件过滤、检测欺诈性信用卡交易、股票交易、计算机视觉、语音识别等。
机器学习有三种主要类型:监督学习、无监督学习和强化学习。
监督学习是指数据被标记,算法学习预测标记。例如,在一组猫和狗的图像数据集中,标记将是“猫”和“狗”。算法将学习识别哪些图像包含猫和哪些包含狗。
来自 Unsplash 的 Christina @ wocintechchat.com
无监督学习是指数据没有标记,算法试图在数据中找到模式。例如,在一组动物图像数据集中,算法可能将猫、狗和狮子的图像分为“动物”。
强化学习是指算法通过试错学习。例如,一个强化学习算法可能被要求导航迷宫。算法将尝试不同的迷宫路径,直到找到通往出口的最短路径。
我将不会花时间分解这三种类型的机器学习模型,而是将描述限制在特定的算法和实现周围——20个算法。我发现它们是目前机器学习应用案例中最重要的前20个。
以下任何算法列出的示例都是一个示例,并不意味着该算法能够完全代表它能够实现的功能或成就。
-
线性回归:一种基于已知数据进行预测的方法。例如,你可以使用线性回归根据过去的收入预测未来的收入。那么,你的房产可能价值多少?
-
逻辑回归:一种用于预测事件发生概率的统计分析类型。这是一种在依赖变量为二元的情况下使用的分析方法(0或1,是或否)。
-
支持向量机:一种可以从示例中学习并进行预测的模型。它经常用于将事物分类成组。
决策树。来自 Unsplash 的 Christina @ wocintechchat.com
-
决策树:一种通过显示可能的选项来帮助你做出决策的方法。你可以通过查看所呈现的内容来选择首选选项。
-
随机森林:使用它来预测事物。它通过查看可能影响你正在预测的事物的许多不同情况来工作,然后根据它所学到的内容进行猜测。
-
梯度提升:一种将多个较弱模型组合成一个更强大模型的技术。较弱的模型使用梯度下降算法开发,并且最终模型是所有较弱(相对而言)模型的加权组合。
-
神经网络:一种用于对数据中的复杂模式进行建模的机器学习算法。神经网络与其他机器学习算法相似,但它们由大量相互连接的处理节点或神经元组成,可以学习识别输入数据的模式。
-
主成分分析(PCA):一种用于在数据中查找模式的技术。它查看数据并找到数据变化最大的方向。
来自 Unsplash 的 Christina @ wocintechchat.com
-
线性判别分析:一种机器学习技术,可帮助确定用于预测目标变量最重要的一组变量(特征)。LDA 是一种分析数据的方法,以便可以将其用于预测行动的结果。它用于识别数据中不同值之间的关系,然后使用这些关系来对未来进行预测。
-
K-Means 聚类:一种用于将数据分组在一起以使数据更可能相关的机器学习技术。这是一种通过找到最接近的数据点并将它们分组在一起来帮助数据点组的方法(例如,数据库中的项目)。
-
层次聚类是一种将数据项分组在一起以便更易于理解的方法。它通过将数据分成组,然后查看这些组之间的关系来工作。这是一种以层次方式将数据点分组在一起的方法。该算法从每个数据点开始,将最接近的组合并在一起,直到只剩下一个组为止。
-
DBSCAN:可以用于将数据点聚类在一起的算法。它通过查看数据点的密度并在它们彼此靠近时将它们分组来工作。
-
高斯混合模型:它使用线性和非线性模型的混合来预测结果。它是一种有助于预测一组对象行为的机器学习模型。该模型接收一组输入数据点,并使用它来预测一组新的输入数据点的行为。14. 自编码器(Autoencoders):一种机器学习算法,可以学习从一组输入数据中解码或重构符号序列。它是一种神经网络类型,用于学习如何压缩数据。其目的是学习一个表示(编码)[3],该表示比原始数据小(同时仍然包含所有重要信息)。
图片由 ThisIsEngineering 来自 Pexels
-
隔离森林(Isolation Forest):用于检测数据中的异常值。它通过随机选择数据点并创建决策树来工作。如果该点是异常值,则更容易将其与其他数据隔离开来。
-
单类支持向量机(One-Class SVM):类似于隔离森林方法,可用于查找异常值:评估异常值的方法是创建最佳分离数据的线。任何远离此线的数据点都被视为异常值。
-
局部线性嵌入(Locally Linear Embedding):一种用于降低数据维度的技术。它通过找到接近原始数据的线性表示来实现。这是一种将数据集表示为空间中点序列的方法。通过这种方式,你可以更容易地看到数据点之间的关系并进行更好的预测。
-
t-SNE [1]:通过降低数据维度来帮助可视化数据。t-SNE通过创建数据点的映射,然后找到在较低维空间中表示这些点的最佳方法来工作。
-
独立成分分析(Independent Component Analysis,ICA):用于查找数据中的隐藏模式。它通过查看数据中不同变量之间的关系来实现。这是一种将混合信号中的不同部分分离出来的技术。
-
因子分析(Factor Analysis):用于减少需要分析以查找模式的数据量。它通过识别具有类似行为的数据元素组来实现。它还用于减少需要分析以揭示模式的数据量;它通过识别具有类似行为的数据元素组来实现。有效地,它是一种用于理解数据集的哪些特征对于预测结果至关重要的方法。
如果你有任何编辑/修订建议或扩展此主题的建议,请考虑与我分享你的想法。
此外,请考虑订阅我的每周简报:
我已经写了以下与此帖子相关的内容;它们可能会引起你的兴趣:
6个开源 NLP 模型用于情感分析;其中一个最受欢迎
NLP 的未来是量子物理学
监督学习:31个最重要的模型;其中5个必须学习
参考文献:
_1. Sklearn.manifold.TSNE. (n.d.). Scikit-Learn. Retrieved July 20, 2022, from _https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html
2. 机器学习是什么以及为什么很重要 | SAS。https://www.sas.com/en_us/insights/analytics/machine-learning.html
_3. 1.4 Model Fitting and Model Learning — Vilniaus universitetas. _http://web.vu.lt/mif/a.buteikis/wp-content/uploads/PE_II_Book/1-4-learning-algorithms.html
评论(0)