数据分析思维培养之一：数据思维 -大数据

捐助

数据分析思维培养之一：数据思维

2488 次浏览

2020-12-18

编辑推荐:

本文主要主要从数据格式、数据标签及编码处理、分析方法数据格式、数据异常或无效处理、数据基本特征探索，这几个方面分析了数据思维。希望对你有帮助。
本文来自博客园，由火龙果软件Linda编辑、推荐。

想要进行科学的数据分析，正确的数据格式，以及正常的数据是最基本的。而且数据的准备和数据的理解，正是科学的数据分析思维必备条件之一。

想要准备好自己的数据，需要从以下六个方面进行处理：

第1点，是需要准备好正确的数据格式

第2点，在于对数据的基本处理，包括数据标签、数据编码和生成变量等

第3点，是一些分析方法需要的数据特殊格式准备

第4点，是数据异常值，或者无效样本数据的处理

第5点，是数据基本特征探索

第6点，是一些其它注意事项等

第1点，数据格式

在进行数据分析前，数据的准备是第一点，不论是使用数据库下载的数据，或者实验数据，也或者问卷调查数据，手工录入数据等。不论是直接从系统下载的原始数据，还是自己手工录入的数据，均需要按照数据分析思维的规范格式进行，否则任何软件都无法分析。

但通常情况下，很多人都会忽略此步骤，认识有了数据马上就可以分析，其实不然，准备数据和数据的基本处理也属于数据分析的范畴，而且正常情况下数据处理花的时间占比会超过50%，也即是说想完成一项分析，其实有超过50%的时间（多数情况下会是70%左右）都是在准备数据上。

接下来以例子说明下什么是正确的数据格式，首先看下常见的错误数据格式例子如下图：

上图为是最为常见的一种错误数据格式，手工录入到EXCEL里面的时候，非常的随意，想如何就如何。但一旦想进行分析的时候就会出错，那是由于EXCEL是表格软件，而不是数据分析软件，所以随意的格式都可以。

上图中出现了5个常见的问题，分别是：

第1：出现合并单元格，A1和A2这两个单元格合并，在分析的时候软件就不知道名字应该叫什么，所以直接无法上传到软件中；

第2：C1这个单元格本身是标识体重信息，但直接为空，分析软件可不知道空就是‘体重’的意思，这是非常明显的错误；

第3：A列里面为性别，但是数据非常不规范，男，男性，MALE这三个词语都是男，但是分析软件会认为这是3个不同的名词，这也可以很好的解释为什么‘填空题’这种杂乱无章的数据通常是无法分析的原因；

第4：B8这个格子里面为‘平均为175’，这是错误的。原因在于B列是标识身高信息，而不是平均身高信息，如果需要得到平均身高，让分析软件帮你计算就好；

第5：C7这个格式为‘无数据’，其实就是缺失数据，直接空着就好，否则分析软件会认为‘无数据’是一个数据信息。

上述已经列出常见的错误特征，接下来说明正确的数据格式如下：

规范的数据格式（可用于数据分析）应该是这样，第1行为‘标题’即具体名字，第2行起为具体的数据，且不能有合并单元格的情况，如果为空值即缺失值，直接不录入就好。并且数据信息需要规范，比如男，男性，MALE这三个词语都应该规范成‘男’。

任何的分析软件都应该提供规范的数据格式才能分析，以SPSSAU为例，其支持的数据格式说明如下，且SPSSAU支持EXCEL格式（包括CSV，xls和xlsx三种类型），SAV(SPSS格式等)，使用SPSSAU右上角‘我的数据’上传数据后即成功导入了数据。

需要特别说明的一点是：数据分析软件事实上只认识数字，比如上例中的‘男’，‘女’，软件是不认识的，那么软件如何处理呢。它会自动把‘男’或‘女’用数字1或2进行表示，然后打上数字的标签，分析出来后数字1的时候就会显示成‘男’，数字2就会显示成‘女’。任何的机器原理上都只认识数字而不认识文字，全部都是将文字‘数字化’处理。因此接下来会进行一些数字标签，以及数据基本处理的说明。

除此之外还需要说明一点是：如果有多份数据，这是需要自己合并整理在一个EXCEL工作表里面才可以，分析软件是无法知道多份数据分别代表什么意思，需要自己手工将数据合并整理在一个工作表里面后才能进一步分析。

第2点，数据标签及编码处理等

上一点已经说明正确的数据之后，接下来说明下数据的基本处理，包括数据标签、数据编码和生成变量。关于数据处理相关的操作，SPSSAU截图如下：

完成正确的数据上传后，那么数字代表的意义是什么呢？比如数字1表示男，数字2表示女，这需要告诉软件才可以，这即是数据标签的功能，SPSSAU操作如下：

除了数据标签外，有时候还可能需要进行数据编码处理，比如希望对年龄分成3个组别，分别是20以下，20~30，30以上。此时就需要使用数据编码处理，如下图：

上图中显示，将0~20岁编码成数字1；20~30编码成数字2；30到100编码成数字3；当然至于数字1，2，3分别代表的意义，只有分析人员自己才知道，所以一般还需要使用数据标签功能去标识出数字1，2，3代表的意义。

很多时候还需要对数据生成变量处理，比如说对体重或者身高求对数处理，或者对数据开根号，取绝对值，求和，求平均值处理等，那么可使用SPSSAU生成变量功能，SPSSAU提供大约30类数据处理的功能基本上可以满足所有人的需求。当然有时候还需要更多的处理，可使用‘高级公式’自己输入公式处理即可。

在完成数据编码，生成变量之后，有可能会想对‘标题名称’修改或者删除掉多余项，此时可使用SPSSAU‘标题处理’功能即可。

第3点，分析方法数据格式

在完成正确的数据上传及数据处理后，通常就可以开始进行正常的分析了，绝大多数的分析都可以完成。但有的时候，个别研究方法对于数据格式是有特殊要求的，所以还需要按照其特征的数据格式要求进行准备数据，比如卡方检验时有时提供的是‘加权’数据格式，kappa一致性检验，模糊综合评价分析方法等特别分析方法时，对于数据的格式有特殊的要求，建议可直接查看SPSSAU帮助手册里面的案例数据格式，当然也可以直接使用SPSSAU的案例数据里面的格式模仿参考进行即可。

具体可在此页面查看SPSSAU的案例数据格式：

https://spssau.com/front/spssau/helps/otherdocuments/spssaucasedata.html

第4点，数据异常或无效处理

对于上传后的数据，有时候会出现异常情况，比如正常男性成年人的身高是介于1.5~2米之间，但是如果出现一个数据为1.2米，那这种异常数据在分析之前是需要进行处理才可以，一般情况下是把该值直接设置成null值。SPSSAU操作如下：

也有的时候会对数据标识为无效样本，比如一份关于淘宝购物满意度的问卷，填写者全部都填写完全相同的答案，说明该样本没有认真填写，此时可将该样本设置为无效样本，SPSSAU操作如下图（将相同数字大于70%设置成无效样本）：

第5点，数据基本特征探索

通常在分析前，还需要首先探索下数据的特征，看下数据是否有异常情况，大概看下数据的特征情况等，便于做到心中有数，比如正常男性成年人身高是介于1.5~2米之间，但数据中有没有异常值呢，通常可使用描述分析大概看下就好。如下图中最小值是1.69米，最大是1.82米，都是正常数据。

当然还可以查看一些更深入的数据指标，比如百分位数等，如下图：

另外也可以使用箱线图、或者散点图等看下是否有异常数据，SPSSAU可视化里面均有提供。

第6点，其它

数据的准备和清理是进行数据分析的第一步，而且正常情况下，此步骤占用了数据分析超过50%（大部分情况下是70%）的时间，但此步骤非常容易被普通用户忽略。

完成数据准备和基本的清理，数据异常，数据无效，以及数据特征探索之后，才能开始进入下一步，即正常的数据分析。否则后面分析发现有着异常数据或者无效数据，也或者错误的数据，那么中间所有的分析都会白费。

2488 次浏览