您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   Code  
会员   
   
 
     
   
 订阅
  捐助
数据挖掘如何建模?
 
 
  1454  次浏览      15
 2021-7-7
 
编辑推荐:
本篇文章将为大家更加详细地介绍数据挖掘的应用方向、如何建模等相关内容,希望对您的学习有所帮助。
本文来自知乎,由火龙果软件Linda编辑、推荐。

为什么需要数据挖掘

对于数据挖掘,很多人会认为它和数据分析是一回事。

其实从广义上讲,两者都互有交集,在技术和范畴上有很相似的地方,只不过,数据分析重在“分析”,而数据挖掘则更重“挖掘”。

简单地说,数据挖掘就是指从大量数据中提取或“挖掘”知识,也叫做数据中的知识发现。

可以看出,数据挖掘是一个过程结果的称谓,即主要目标是从数据中挖取隐藏的信息。它是一个交叉科学领域,受多个学科影响,包括数据库系统、统计、机器学习、可视化和信息科学。

有需求的地方就会产生新的发明,每一项新技术的诞生都可以说是顺应时代的发展产物。数据挖掘也是信息技术自然演化的结果。

从20世纪60年代开始,人们就开始有了数据收集和数据库创建的意识,随后的70年代逐渐建立起了数据库管理系统,80年代到现在则逐渐演化出了高级数据分析和web数据库。

每个人都是数据的使用者和产生者,在日常的生活工作中为互联网行业提供了体系庞大的数据,这些数据被收集、存放在大型数据存储库中。随着大数据时代的到来,人们逐渐意识到了沉睡的数据中可能隐藏着巨大的价值。

数据挖掘技术的出现,为提取数据价值带来了一丝契机。数据挖掘的目的就是从数据中“淘金”,即从数据中获取智能的过程,它提供了从数据到价值的解决方案,从海量数据中提取出有价值的信息,从而作为决策的重要依据。

数据挖掘的系统架构

图:数据挖掘系统结构图,来源于网络

原则上讲,数据挖掘可以应用于任何类型的信息存储库及瞬态数据,如数据库、数据仓库、数据集市、事务数据库、空间数据库、工程设计数据、多媒体数据、网络、数据流、时间序列数据库等。

数据挖掘的应用方向

在上一篇数据挖掘的介绍文章中,企通查有提到过数据挖掘在企业危机管理中的应用。

其实对于常见的商业运营问题,基本都可以转化为四类大数据挖掘问题:分类、聚类、关联和预测。

分类分析:有监督学习,将数据映射到事先定义的群组或类。典型应用案例:将信用卡使用人群分为低中高风险群。

聚类分析:无指导学习,在没有给定划分类的情况下,根据信息相似度进行信息聚类。典型应用案例:对客户行为分析,对客户分层进行精准营销。

关联分析:发现事物间的关联规则或称相关程度,常用在交叉销售,交叉分析,典型应用案例:著名的啤酒与尿布故事。

预测分析:用属性的历史数据预测未来趋势,典型应用案例:预测哪些用户在未来半年会流失等。

除此之外,还可转化为回归分析、偏差分析等问题。

回归分析:已知的数据预测未来的值,回归不强调数据间的先后顺序。

偏差分析:用来发现与正常情况不同的异常和变化,并进一步分析这种变化是有意诈骗行为还是正常的变化。常用在防欺诈及保险领域。

虽然数据发掘在以上这些应用涉及的技术和工具各不相同,却可以依据统一的方法论来实行协同作战,解决许多让人头痛不已的商业问题。

数据挖掘建模的一般过程

正所谓磨刀不误砍柴工,在数据挖掘正式开始前,我们需要对被挖掘的数据如何选择进行思考,可包括但不限于以下内容:

哪些数据源可用?

哪些数据与当前挖掘目标相关?

如何保证取样数据的质量?

是否在足够范围内有代表性?

数据样本取多少合适?

如何分类(训练集、验证集、测试集)?

图:数据挖掘建模的一般过程,来源于网络

1. 数据准备

选择数据的标准,一是相关性,二是可靠性,三是时效性,要选择具代表性、有特征的数据,而不是动用全部企业数据。

通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使想要反映的规律性更加突显出来。

2. 模式分析

模型构建的前提是在样本数据集中发现模式,在样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则或者时序模式),选用哪种算法进行模型构建?

在目标进一步明确化的基础上,我们就可以按照问题的具体要求来重新审视已经采集的数据,看其是否适应挖掘目标的需要。

3. 模型构建

确定了本次建模所属的数据挖掘应用问题后,还需考虑具体应该采用什么算法,实施步骤是什么?

这一步可谓是数据挖掘工作的核心环节,模型构建是对采样数据轨迹的概括,它反映的是采样数据内部结构的一般特征,并与该采样数据的具体结构基本吻合。

预测模型的构建通常包括模型建立、模型训练、模型验证和模型预测4个步骤,但根据不同的数据挖掘分类应用会有细微的变化。

4. 模型评价

模型效果评价通常分两步:

第一步,直接使用原来建立模型的样本数据来进行检验。

第二步,另找一批反映客观实际的、规律性的数据。

假如进行模型评价时第一步都通不过,那么所建立的决策支持信息价值就不太大了。

一般来说,模型评价在第一步应得到较好的反馈,从而说明我们确实从这批数据样本中挖掘出了符合实际的规律性。

数据+工具+方法+目标+行动=价值。

企通查—企业风控平台基于数据采集、特征提取、信息关联、机器学习和深度学习算法模型、NLP文本分析等先进技术,清晰构建企业全维度动态画像,通过企业风控指数、企业信用指数、企业活力指数三大指数模型体系和基于企业基本能力、创新能力、经营能力、核心能力、财务能力和风险能力六大方面的大数据风控体系,实现对企业供应商和客户的全流程主动感知、重点监控、变动提醒和风险预警。

 

   
1454 次浏览       15
相关文章

基于EA的数据库建模
数据流建模(EA指南)
“数据湖”:概念、特征、架构与案例
在线商城数据库系统设计 思路+效果
 
相关文档

Greenplum数据库基础培训
MySQL5.1性能优化方案
某电商数据中台架构实践
MySQL高扩展架构设计
相关课程

数据治理、数据架构及数据标准
MongoDB实战课程
并发、大容量、高性能数据库设计与优化
PostgreSQL数据库实战培训
 
最新课程计划
信息架构建模(基于UML+EA)3-21[北京]
软件架构设计师 3-21[北京]
图数据库与知识图谱 3-25[北京]
业务架构设计 4-11[北京]
SysML和EA系统设计与建模 4-22[北京]
DoDAF规范、模型与实例 5-23[北京]
 
最新文章
InfluxDB概念和基本操作
InfluxDB TSM存储引擎之数据写入
深度漫谈数据系统架构——Lambda architecture
Lambda架构实践
InfluxDB TSM存储引擎之数据读取
最新课程
Oracle数据库性能优化、架构设计和运行维护
并发、大容量、高性能数据库设计与优化
NoSQL数据库(原理、应用、最佳实践)
企业级Hadoop大数据处理最佳实践
Oracle数据库性能优化最佳实践
更多...   
成功案例
某金融公司 Mysql集群与性能优化
北京 并发、大容量、高性能数据库设计与优化
知名某信息通信公司 NoSQL缓存数据库技术
北京 oracle数据库SQL优化
中国移动 IaaS云平台-主流数据库及存储技术
更多...