您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   Code  
会员   
   
 
     
   
 订阅
  捐助
数据分析思维培养之一:数据思维
 
 
 
  1702  次浏览      16
2020-12-18 
 
编辑推荐:
本文主要主要从 数据格式、数据标签及编码处理、 分析方法数据格式、数据异常或无效处理、数据基本特征探索,这几个方面分析了数据思维。希望对你有帮助。
本文来自博客园,由火龙果软件Linda编辑、推荐。

想要进行科学的数据分析,正确的数据格式,以及正常的数据是最基本的。而且数据的准备和数据的理解,正是科学的数据分析思维必备条件之一。

想要准备好自己的数据,需要从以下六个方面进行处理:

第1点,是需要准备好正确的数据格式

第2点,在于对数据的基本处理,包括数据标签、数据编码和生成变量等

第3点,是一些分析方法需要的数据特殊格式准备

第4点,是数据异常值,或者无效样本数据的处理

第5点,是数据基本特征探索

第6点,是一些其它注意事项等

第1点,数据格式

在进行数据分析前,数据的准备是第一点,不论是使用数据库下载的数据,或者实验数据,也或者问卷调查数据,手工录入数据等。不论是直接从系统下载的原始数据,还是自己手工录入的数据,均需要按照数据分析思维的规范格式进行,否则任何软件都无法分析。

但通常情况下,很多人都会忽略此步骤,认识有了数据马上就可以分析,其实不然,准备数据和数据的基本处理也属于数据分析的范畴,而且正常情况下数据处理花的时间占比会超过50%,也即是说想完成一项分析,其实有超过50%的时间(多数情况下会是70%左右)都是在准备数据上。

接下来以例子说明下什么是正确的数据格式,首先看下常见的错误数据格式例子如下图:

上图为是最为常见的一种错误数据格式,手工录入到EXCEL里面的时候,非常的随意,想如何就如何。但一旦想进行分析的时候就会出错,那是由于EXCEL是表格软件,而不是数据分析软件,所以随意的格式都可以。

上图中出现了5个常见的问题,分别是:

第1:出现合并单元格,A1和A2这两个单元格合并,在分析的时候软件就不知道名字应该叫什么,所以直接无法上传到软件中;

第2:C1这个单元格本身是标识体重信息,但直接为空,分析软件可不知道空就是‘体重’的意思,这是非常明显的错误;

第3:A列里面为性别,但是数据非常不规范,男,男性,MALE这三个词语都是男,但是分析软件会认为这是3个不同的名词,这也可以很好的解释为什么‘填空题’这种杂乱无章的数据通常是无法分析的原因;

第4:B8这个格子里面为‘平均为175’,这是错误的。原因在于B列是标识身高信息,而不是平均身高信息,如果需要得到平均身高,让分析软件帮你计算就好;

第5:C7这个格式为‘无数据’,其实就是缺失数据,直接空着就好,否则分析软件会认为‘无数据’是一个数据信息。

上述已经列出常见的错误特征,接下来说明正确的数据格式如下:

规范的数据格式(可用于数据分析)应该是这样,第1行为‘标题’即具体名字,第2行起为具体的数据,且不能有合并单元格的情况,如果为空值即缺失值,直接不录入就好。并且数据信息需要规范,比如男,男性,MALE这三个词语都应该规范成‘男’。

任何的分析软件都应该提供规范的数据格式才能分析,以SPSSAU为例,其支持的数据格式说明如下,且SPSSAU支持EXCEL格式(包括CSV,xls和xlsx三种类型),SAV(SPSS格式等),使用SPSSAU右上角‘我的数据’上传数据后即成功导入了数据。

需要特别说明的一点是:数据分析软件事实上只认识数字,比如上例中的‘男’,‘女’,软件是不认识的,那么软件如何处理呢。它会自动把‘男’或‘女’用数字1或2进行表示,然后打上数字的标签,分析出来后数字1的时候就会显示成‘男’,数字2就会显示成‘女’。任何的机器原理上都只认识数字而不认识文字,全部都是将文字‘数字化’处理。因此接下来会进行一些数字标签,以及数据基本处理的说明。

除此之外还需要说明一点是:如果有多份数据,这是需要自己合并整理在一个EXCEL工作表里面才可以,分析软件是无法知道多份数据分别代表什么意思,需要自己手工将数据合并整理在一个工作表里面后才能进一步分析。

第2点,数据标签及编码处理等

上一点已经说明正确的数据之后,接下来说明下数据的基本处理,包括数据标签、数据编码和生成变量。关于数据处理相关的操作,SPSSAU截图如下:

完成正确的数据上传后,那么数字代表的意义是什么呢?比如数字1表示男,数字2表示女,这需要告诉软件才可以,这即是数据标签的功能,SPSSAU操作如下:

除了数据标签外,有时候还可能需要进行数据编码处理,比如希望对年龄分成3个组别,分别是20以下,20~30,30以上。此时就需要使用数据编码处理,如下图:

上图中显示,将0~20岁编码成数字1;20~30编码成数字2;30到100编码成数字3;当然至于数字1,2,3分别代表的意义,只有分析人员自己才知道,所以一般还需要使用数据标签功能去标识出数字1,2,3代表的意义。

很多时候还需要对数据生成变量处理,比如说对体重或者身高求对数处理,或者对数据开根号,取绝对值,求和,求平均值处理等,那么可使用SPSSAU生成变量功能,SPSSAU提供大约30类数据处理的功能基本上可以满足所有人的需求。当然有时候还需要更多的处理,可使用‘高级公式’自己输入公式处理即可。

在完成数据编码,生成变量之后,有可能会想对‘标题名称’修改或者删除掉多余项,此时可使用SPSSAU‘标题处理’功能即可。

第3点,分析方法数据格式

在完成正确的数据上传及数据处理后,通常就可以开始进行正常的分析了,绝大多数的分析都可以完成。但有的时候,个别研究方法对于数据格式是有特殊要求的,所以还需要按照其特征的数据格式要求进行准备数据,比如卡方检验时有时提供的是‘加权’数据格式,kappa一致性检验,模糊综合评价分析方法等特别分析方法时,对于数据的格式有特殊的要求,建议可直接查看SPSSAU帮助手册里面的案例数据格式,当然也可以直接使用SPSSAU的案例数据里面的格式模仿参考进行即可。

具体可在此页面查看SPSSAU的案例数据格式:

https://spssau.com/front/spssau/helps/otherdocuments/spssaucasedata.html

第4点,数据异常或无效处理

对于上传后的数据,有时候会出现异常情况,比如正常男性成年人的身高是介于1.5~2米之间,但是如果出现一个数据为1.2米,那这种异常数据在分析之前是需要进行处理才可以,一般情况下是把该值直接设置成null值。SPSSAU操作如下:

也有的时候会对数据标识为无效样本,比如一份关于淘宝购物满意度的问卷,填写者全部都填写完全相同的答案,说明该样本没有认真填写,此时可将该样本设置为无效样本,SPSSAU操作如下图(将相同数字大于70%设置成无效样本):

第5点,数据基本特征探索

通常在分析前,还需要首先探索下数据的特征,看下数据是否有异常情况,大概看下数据的特征情况等,便于做到心中有数,比如正常男性成年人身高是介于1.5~2米之间,但数据中有没有异常值呢,通常可使用描述分析大概看下就好。如下图中最小值是1.69米,最大是1.82米,都是正常数据。

当然还可以查看一些更深入的数据指标,比如百分位数等,如下图:

另外也可以使用箱线图、或者散点图等看下是否有异常数据,SPSSAU可视化里面均有提供。

第6点,其它

数据的准备和清理是进行数据分析的第一步,而且正常情况下,此步骤占用了数据分析超过50%(大部分情况下是70%)的时间,但此步骤非常容易被普通用户忽略。

完成数据准备和基本的清理,数据异常,数据无效,以及数据特征探索之后,才能开始进入下一步,即正常的数据分析。否则后面分析发现有着异常数据或者无效数据,也或者错误的数据,那么中间所有的分析都会白费。

 
   
1702 次浏览       16
相关文章

基于EA的数据库建模
数据流建模(EA指南)
“数据湖”:概念、特征、架构与案例
在线商城数据库系统设计 思路+效果
 
相关文档

Greenplum数据库基础培训
MySQL5.1性能优化方案
某电商数据中台架构实践
MySQL高扩展架构设计
相关课程

数据治理、数据架构及数据标准
MongoDB实战课程
并发、大容量、高性能数据库设计与优化
PostgreSQL数据库实战培训
最新课程计划
信息架构建模(基于UML+EA)3-21[北京]
软件架构设计师 3-21[北京]
图数据库与知识图谱 3-25[北京]
业务架构设计 4-11[北京]
SysML和EA系统设计与建模 4-22[北京]
DoDAF规范、模型与实例 5-23[北京]
 
最新文章
大数据平台下的数据治理
如何设计实时数据平台(技术篇)
大数据资产管理总体框架概述
Kafka架构和原理
ELK多种架构及优劣
最新课程
大数据平台搭建与高性能计算
大数据平台架构与应用实战
大数据系统运维
大数据分析与管理
Python及数据分析
更多...   
成功案例
某通信设备企业 Python数据分析与挖掘
某银行 人工智能+Python+大数据
北京 Python及数据分析
神龙汽车 大数据技术平台-Hadoop
中国电信 大数据时代与现代企业的数据化运营实践
更多...