|
|
微软推 Azure 机器学习工具:Algorithm Cheat Sheet
|
|
作者 钱曙光 来源:CSDN 火龙果软件 发布于 2015-05-18 |
|
|
Azure Machine Learning Studio 有着大量的机器学习算法,现在你可以使用它来构建预测分析解决方案。这些算法可用于一般的机器学习:回归分析、分类、聚类和异常检测,且每一个都可以解决不同类型的机器学习问题。
现在的问题是,是否有什么工具之类的东西可帮助找出如何选择一个合适的机器学习算法,并根据具体的方案?
微软 Azure 的机器学习 Algorithm Cheat Sheet 旨在帮助你筛选可用的机器学习算法,并选择合适的一个来用于预测分析解决方案。Cheat Sheet 会询问你这两个问题:数据的性质、你工作想要解决的问题等,然后提出一个你可以尝试的算法的建议。
Azure Machine Learning Studio 为你提供了灵活的体验:尝试一种算法,如果你对结果不满意,那就尝试另一种。(Azure 机器学习是免费的,也不需要什么许可,点击这里试用。)这里有一个来自 Azure Machine Learning Gallery 的例子,该实验是尝试用几种不同的算法用在相同的数据上,然后进行结果比较:Compare Multi-class Classifiers: Letter recognition。
对于不同类型的机器学习算法和如何使用的深入讨论,参见:How to choose an algorithm in Azure Machine Learning。
所有的机器学习算法列表都在 Machine Learning Studio 中可获得,参见:Initialize Model。
关于 Azure Machine Learning Studio
Azure Machine Learning Studio 提供了许多不同的先进机器学习算法来帮助你生成分析模型。首先,确定要执行的机器学习任务的常规类型,因为归组在每个类别中的算法适合特定的预测任务。
选择一种算法并配置其参数后,可以使用训练模块之一通过选定算法运行数据,也可以使用扫描参数循环访问所有可能的参数并确定任务和数据的最佳配置。
学习算法的类别
Azure Machine Learning Studio 提供了以下各种类型的机器学习算法,它们按典型的机器学习方案来分组。
异常检测
异常检测包含许多机器学习方面的重要任务,异常检测技术适用于各种行业:
1. 标识可能具有欺诈性的事务。
2. 学习指示发生了网络入侵的模式
3. 查找异常的患者群集
4. 检查输入到系统的值
根据定义,异常属于罕见事件,因此可能很难收集有代表性的数据样本来进行建模。本节中包含的算法已经过专门设计,可以解决异常检测的核心构建和训练模型问题。
此类别包括以下模块:单类支持向量机、基于 PCA 的异常检测。
分类
分类算法用于预测单个数据实例的类或类别。例如,电子邮件筛选器使用二元分类来确定某封电子邮件是否为垃圾邮件。有两种形式的分类任务。一种是旨在预测两个结果之一的二元分类,另一种是旨在预测多个结果之一的多类分类。分类算法的输出为分类器,可用于预测新的(未标记)实例的标签。
类别 Modules References.Machine Learning.Initialize Model.Classification 包括以下模块:多类决策林、多类决策森林、多类逻辑回归、多类神经网络、一对多多类、双类平均感知器、双类贝叶斯点机、双类提升决策树、双类决策林、双类决策森林、双类逻辑回归、双类神经网络、双类支持向量机、双类局部深层支持向量机。
聚类
聚类算法可以基于一组特征学习了解如何将一组项分组在一起。例如,聚类通常在文本分析中使用,以便将包含常见单词的文本片段分组在一起。可以使用聚类通过找出最接近的数据点,然后确定每种组合的质心或中心点,来分组未标记的数据。训练算法后,可以使用它来预测数据实例所属的聚类。
类别 Modules References.Machine Learning.Initialize Model.Clustering 包括模块:K 平均值聚类
回归
回归算法是学习预测单个数据实例的实际函数字的算法。例如,房价预测器可以使用回归算法来预测当前的房价。回归算法确定要执行回归函数的数据的每个特征分布。算法训练用于预测标记数据的函数后,可用于预测新的(未标记)实例的标签。
类别 Modules References.Machine Learning.Initialize Model.Regression
英文原文:Microsoft Azure Machine Learning Algorithm Cheat Sheet
|
|
|
|
|