数据科学简化讲解：原理和过程-大数据

捐助

数据科学简化讲解：原理和过程

作者：帆软

2302 次浏览

2020-7-29

编辑推荐:

在本文中，将首先介绍数据科学中的基本原理，一般过程和问题类型，希望对您的学习有所帮助。
本文来自个人图书馆，由火龙果软件Alice编辑、推荐。

2006年，英国数学家Clive Humbly和Tesco俱乐部卡的设计师创造了“数据就是新油(Data is the new oil)”这句话。他说：

“数据是新的石油。它很有价值，但如果未经提炼就不能使用。它必须转变为天然气，塑料，化学品等，以创造一个有价值的实体驱动盈利的活动; 所以，必须对数据进行分解和分析，才能使其具有价值。“

数据科学是一个多学科领域。它是以下领域之间的交集：

1.商业知识

2.机器学习

3.计算机编程

我们的重点将是简化数据科学的机器学习方面。

关键原理

数据是一项战略资产：这一概念是一种组织心态。要问的问题是：“我们是否正在使用我们收集和存储的所有数据资产？我们能从中获取有意义的见解吗？“ 我确信这些问题的答案都是“不”。云计算的公司本质上是数据驱动的，将数据视为战略资产是他们的心理，这种心态对大多数组织都无效。

信息提取的系统过程：需要有一个有条理的过程来从数据中提取见解。这个过程应该有清晰明确的阶段，并有明确的可交付成果。跨行业标准数据挖掘流程（CRISP-DM）就是这样一个过程。

沉浸在数据中：组织需要投资于对数据充满热情的人。将数据转化为见解并不是魔法，他们需要了解数据所产生的价值，他们需要能够连接数据，技术和业务的人员。

不确定性因素：数据科学不是灵丹妙药，它不是一个水晶球。与报告和KPI一样，它是决策促成因素。数据科学是一种工具，而不是结束的手段，它不属于绝对领域，它属于概率领域，管理者和决策者需要接受这一事实。他们需要在决策过程中接受量化的不确定性，如果组织采用失败的快速学习方法，这种不确定性只能根深蒂固。只有组织选择实验文化，它才会蓬勃发展。

BAB原则：我认为这是最重要的原则。许多数据科学文献的重点是模型和算法，这个等式没有商业背景。业务分析 - 业务（BAB）是强调业务部分的原则，将它们置于业务环境中是至关重要的。定义业务问题，使用分析来解决它。将输出集成到业务流程中。BAB。

处理

根据第二条原则，现在让我强调一下数据科学的过程部分。以下是一个典型的数据科学项目的阶段：

1.定义业务问题

阿尔伯特爱因斯坦曾引用“每件事都应该尽可能地简单，但不能越简单越好”。这句话是定义业务问题的关键。需要开发和构建问题陈述，需要建立明确的成功标准。根据我的经验，业务团队忙于处理他们的操作任务。这并不意味着他们没有需要解决的挑战。头脑风暴会议，研讨会和访谈可以帮助发现这些挑战并提出假设。让我用一个例子来说明这一点。让我们假设一家电信公司由于客户群减少而导致其同比收入下降。在这种情况下，业务问题可能定义为：

该公司需要通过定位新的细分市场和减少客户流失来扩大客户群。

2.分解为机器学习任务

业务问题一旦定义，就需要分解为机器学习任务。让我们详细说明我们在上面设置的示例。如果组织需要通过定位新的细分市场并减少客户流失来扩大客户群，那么我们如何将其分解为机器学习问题？以下是分解的示例：

将客户流失率降低x％。

为目标市场确定新的客户群。

3.数据准备

一旦我们定义了业务问题并将其分解为机器学习问题，我们就需要深入研究数据。数据理解应该明确手头的问题。它应该有助于我们制定正确的分析策略。需要注意的关键事项是数据来源，数据质量，数据偏差等。

4.探索性数据分析

宇航员穿越宇宙的未知。同样，数据科学家遍历数据模式的未知，窥探其特征的奥秘并制定出未被探索的内容。探索性数据分析（EDA）是一项令人兴奋的任务。我们可以更好地理解数据，研究其中的细微差别，发现隐藏的模式，开发新特性并制定建模策略。

5.建模

在EDA之后，我们进入建模阶段。在这里，我们根据具体的机器学习问题，我们应用有用的算法，如回归，决策树，随机森林等。

6.部署和评估

最后，对所开发的模型进行了部署。它们被持续监测，以观察它们在现实世界中的行为，并据此进行校准。

通常，建模和部署部分仅占工作量的20％。80％的工作是接触数据，探索数据并理解数据。

机器学习问题类型

一般来说，机器学习有两种任务：

监督学习

监督学习是一种机器学习任务，其中存在已定义的目标。从概念上讲，建模者将监督机器学习模型以实现特定目标。监督学习可以进一步分为两类：

回归

回归是机器学习任务的主力。它们用于估计或预测数值变量。回归模型的几个例子可以是：

下个季度潜在收入的预测？

明年能够完成多少笔交易？

分类

顾名思义，分类模型对某些事物进行了分类。估计哪个最合适。分类模型经常用于所有类型的应用程序。分类模型的例子很少：

垃圾邮件过滤是分类模型的流行实现。在这里，根据特定特征，每个传入的电子邮件都被归类为垃圾邮件或非垃圾邮件。

客户流失预测是分类模型的另一个重要应用。在电信公司中广泛使用的流失模型可以对给定客户是否会流失（即停止使用服务）进行分类。

无监督学习

无监督学习是一类没有目标的机器学习任务。由于无监督学习没有任何特定目标，因此有时难以解释其产生的结果。有许多类型的无监督学习任务。关键是：

聚类：聚类是将类似事物组合在一起的过程。客户细分使用聚类方法。

关联：关联是一种寻找经常相互匹配的产品的方法。零售市场分析使用关联方法将产品捆绑在一起。

预测：预测用于发现数据项之间的连接。Facebook，亚马逊和Netflix采用的推荐引擎大量使用链接预测算法来分别向我们推荐朋友、要购买的商品和电影。

数据简化：数据简化方法用于简化从许多特征到少数特征的数据集。它使用具有许多属性的大型数据集，并找到用更少的属性表示它们的方法。

机器学习任务从模型到算法

一旦我们将业务问题分解为机器学习任务，一个或多个算法就可以解决给定的机器学习任务。通常，模型是在多种算法上训练的。选择提供最佳结果的算法或算法集用于部署。

Azure Machine Learning具有30多种预先构建的算法，可用于训练机器学习模型。

Azure Machine Learning备忘录将有助于浏览它。

结论

数据科学是一个广阔的领域。这是一个令人兴奋的领域。这是一门艺术，这是一门科学。在本文中，我们刚刚探讨了冰山的表面。如果不知道“为什么”，那么“如何”将是徒劳的。在随后的文章中，我们将探讨机器学习的“原理”。

2302 次浏览