您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Modeler   Code  
会员   
   
 
     
   
 订阅
  捐助
数据科学简化讲解:原理和过程
 
作者:帆软
 
71 次浏览     评价:  
2020-7-29 
 
编辑推荐:
在本文中,将首先介绍数据科学中的基本原理,一般过程和问题类型,希望对您的学习有所帮助。
本文来自个人图书馆,由火龙果软件Alice编辑、推荐。

2006年,英国数学家Clive Humbly和Tesco俱乐部卡的设计师创造了“数据就是新油(Data is the new oil)”这句话。他说:

“数据是新的石油。它很有价值,但如果未经提炼就不能使用。它必须转变为天然气,塑料,化学品等,以创造一个有价值的实体驱动盈利的活动; 所以,必须对数据进行分解和分析,才能使其具有价值。“

数据科学是一个多学科领域。它是以下领域之间的交集:

1.商业知识

2.机器学习

3.计算机编程

我们的重点将是简化数据科学的机器学习方面。

关键原理

数据是一项战略资产:这一概念是一种组织心态。要问的问题是:“我们是否正在使用我们收集和存储的所有数据资产?我们能从中获取有意义的见解吗?“ 我确信这些问题的答案都是“不”。云计算的公司本质上是数据驱动的,将数据视为战略资产是他们的心理,这种心态对大多数组织都无效。

信息提取的系统过程:需要有一个有条理的过程来从数据中提取见解。这个过程应该有清晰明确的阶段,并有明确的可交付成果。跨行业标准数据挖掘流程(CRISP-DM)就是这样一个过程。

沉浸在数据中:组织需要投资于对数据充满热情的人。将数据转化为见解并不是魔法,他们需要了解数据所产生的价值,他们需要能够连接数据,技术和业务的人员。

不确定性因素:数据科学不是灵丹妙药,它不是一个水晶球。与报告和KPI一样,它是决策促成因素。数据科学是一种工具,而不是结束的手段,它不属于绝对领域,它属于概率领域,管理者和决策者需要接受这一事实。他们需要在决策过程中接受量化的不确定性,如果组织采用失败的快速学习方法,这种不确定性只能根深蒂固。只有组织选择实验文化,它才会蓬勃发展。

BAB原则:我认为这是最重要的原则。许多数据科学文献的重点是模型和算法,这个等式没有商业背景。业务分析 - 业务(BAB)是强调业务部分的原则,将它们置于业务环境中是至关重要的。定义业务问题,使用分析来解决它。将输出集成到业务流程中。BAB。

处理

根据第二条原则,现在让我强调一下数据科学的过程部分。以下是一个典型的数据科学项目的阶段:

1.定义业务问题

阿尔伯特爱因斯坦曾引用“每件事都应该尽可能地简单,但不能越简单越好”。这句话是定义业务问题的关键。需要开发和构建问题陈述,需要建立明确的成功标准。根据我的经验,业务团队忙于处理他们的操作任务。这并不意味着他们没有需要解决的挑战。头脑风暴会议,研讨会和访谈可以帮助发现这些挑战并提出假设。让我用一个例子来说明这一点。让我们假设一家电信公司由于客户群减少而导致其同比收入下降。在这种情况下,业务问题可能定义为:

该公司需要通过定位新的细分市场和减少客户流失来扩大客户群。

2.分解为机器学习任务

业务问题一旦定义,就需要分解为机器学习任务。让我们详细说明我们在上面设置的示例。如果组织需要通过定位新的细分市场并减少客户流失来扩大客户群,那么我们如何将其分解为机器学习问题?以下是分解的示例:

将客户流失率降低x%。

为目标市场确定新的客户群。

3.数据准备

一旦我们定义了业务问题并将其分解为机器学习问题,我们就需要深入研究数据。数据理解应该明确手头的问题。它应该有助于我们制定正确的分析策略。需要注意的关键事项是数据来源,数据质量,数据偏差等。

4.探索性数据分析

宇航员穿越宇宙的未知。同样,数据科学家遍历数据模式的未知,窥探其特征的奥秘并制定出未被探索的内容。探索性数据分析(EDA)是一项令人兴奋的任务。我们可以更好地理解数据,研究其中的细微差别,发现隐藏的模式,开发新特性并制定建模策略。

5.建模

在EDA之后,我们进入建模阶段。在这里,我们根据具体的机器学习问题,我们应用有用的算法,如回归,决策树,随机森林等。

6.部署和评估

最后,对所开发的模型进行了部署。它们被持续监测,以观察它们在现实世界中的行为,并据此进行校准。

通常,建模和部署部分仅占工作量的20%。80%的工作是接触数据,探索数据并理解数据。

机器学习问题类型

一般来说,机器学习有两种任务:

监督学习

监督学习是一种机器学习任务,其中存在已定义的目标。从概念上讲,建模者将监督机器学习模型以实现特定目标。监督学习可以进一步分为两类:

回归

回归是机器学习任务的主力。它们用于估计或预测数值变量。回归模型的几个例子可以是:

下个季度潜在收入的预测?

明年能够完成多少笔交易?

分类

顾名思义,分类模型对某些事物进行了分类。估计哪个最合适。分类模型经常用于所有类型的应用程序。分类模型的例子很少:

垃圾邮件过滤是分类模型的流行实现。在这里,根据特定特征,每个传入的电子邮件都被归类为垃圾邮件或非垃圾邮件。

客户流失预测是分类模型的另一个重要应用。在电信公司中广泛使用的流失模型可以对给定客户是否会流失(即停止使用服务)进行分类。

无监督学习

无监督学习是一类没有目标的机器学习任务。由于无监督学习没有任何特定目标,因此有时难以解释其产生的结果。有许多类型的无监督学习任务。关键是:

聚类:聚类是将类似事物组合在一起的过程。客户细分使用聚类方法。

关联:关联是一种寻找经常相互匹配的产品的方法。零售市场分析使用关联方法将产品捆绑在一起。

预测:预测用于发现数据项之间的连接。Facebook,亚马逊和Netflix采用的推荐引擎大量使用链接预测算法来分别向我们推荐朋友、要购买的商品和电影。

数据简化:数据简化方法用于简化从许多特征到少数特征的数据集。它使用具有许多属性的大型数据集,并找到用更少的属性表示它们的方法。

机器学习任务从模型到算法

一旦我们将业务问题分解为机器学习任务,一个或多个算法就可以解决给定的机器学习任务。通常,模型是在多种算法上训练的。选择提供最佳结果的算法或算法集用于部署。

Azure Machine Learning具有30多种预先构建的算法,可用于训练机器学习模型。

Azure Machine Learning备忘录将有助于浏览它。

结论

数据科学是一个广阔的领域。这是一个令人兴奋的领域。这是一门艺术,这是一门科学。在本文中,我们刚刚探讨了冰山的表面。如果不知道“为什么”,那么“如何”将是徒劳的。在随后的文章中,我们将探讨机器学习的“原理”。

 
   
71 次浏览     评价: 订阅 捐助
相关文章

我们该如何设计数据库
数据库设计经验谈
数据库设计过程
数据库编程总结
 
相关文档

数据库性能调优技巧
数据库性能调整
数据库性能优化讲座
数据库系统性能调优系列
相关课程

高性能数据库设计与优化
高级数据库架构师
数据仓库和数据挖掘技术
Hadoop原理、部署与性能调优
最新课程计划
 讲座 前端开发框架uni-app
 主讲:苏雯斐
 时间:2020年8月15日
 
 实录 企业架构师的能力模型
 主讲:俎涛
 
 
 
最新文章
大数据平台下的数据治理
如何设计实时数据平台(技术篇)
大数据资产管理总体框架概述
Kafka架构和原理
ELK多种架构及优劣
最新课程
大数据平台搭建与高性能计算
大数据平台架构与应用实战
大数据系统运维
大数据分析与管理
Python及数据分析
更多...   
成功案例
某通信设备企业 Python数据分析与挖掘
某银行 人工智能+Python+大数据
北京 Python及数据分析
神龙汽车 大数据技术平台-Hadoop
中国电信 大数据时代与现代企业的数据化运营实践
更多...