《机器学习40讲》-05模型的分类方式

发布网友发布时间：2024-10-24 09:50

共1个回答

热心网友时间：2024-10-31 09:57

机器学习研究的是输入与输出之间的映射关系，通过学习得到的映射表现为模型。从今日起，我们将探讨模型的分类方式。

一般而言，机器学习任务旨在求解输入输出概率分布或数量关系。若待求解的分布或关系可由固定参数完全描述，则模型为参数模型；反之，即为非参数模型。

参数模型优势在于用少量参数精确描述数据特性，每个参数具有统计意义。如二项分布B(n,p)和正态分布N(μ,σ)，分别由两个参数描述。在参数模型学习中，目标是确定决定特性的参数，从而确定数据分布。

参数模型仅需有限参数描述无限数据，得益于对特定概率分布的先验假设。实际任务中，先验知识指导学习过程，数据仅用于估计参数，参数即为数据的浓缩。

非参数模型则不依赖先验假设，完全基于数据学习，适用于未知或复杂分布情况。这类模型参数数目不固定，可能无限大，学习算法在给定范围内求解最优问题。

参数模型简洁实用，但性能严重依赖先验假设的准确性。正确假设时，模型表现优秀；否则，无论数据量多大，性能均不佳。

非参数模型则强调数据本身，无需假设，统计特性来源于数据。它们的计算复杂度通常高于参数模型，但可*近任意复杂模型，具有强大实用性。

参数模型和非参数模型的区别体现在全局与局部适用性，以及可解释性和精确性。数据模型和算法模型则从模型构造角度进行分类，侧重拟合和预测能力。

布雷曼将学习问题视为黑盒，数据模型关注参数估计，算法模型关注映射学习。数据模型和参数模型类似，但更强调解释性；算法模型和非参数模型强调预测性，但可解释性较低。

线性回归作为数据模型典型代表，明确地通过权重系数表示输入与输出关系。而随机森林作为算法模型，综合多棵决策树，预测精度高但解释性较差。

生成模型学习输入输出联合分布，而判别模型学习条件分布，生成模型在数据量少时表现更优，但复杂；判别模型在分类任务上表现较好，但无法提供生成机制信息。

在具体问题中，生成模型和判别模型可成对出现。例如，朴素贝叶斯和逻辑回归分别代表生成和判别分类器。

总结而言，机器学习模型分类涵盖了全局与局部适用性、可解释性与精确性、数据模型与算法模型、以及生成模型与判别模型的区别。

当前，参数模型主导机器学习领域，非参数模型在应用范围和性能上稍逊一筹。然而，随着大数据的兴起，非参数模型的潜力值得深入探索。

全部栏目

《机器学习40讲》-05模型的分类方式