数据分析及建模 -数据库

捐助

数据分析及建模

4779 次浏览

2018-12-13

编辑推荐:

本文来自于CSDN，本文主要介绍数据分析技术：对应分析、预测性数据分析方法以及时间序列等相关内容。

一、主成分分析PCA

1. 基本思想

主成分分析是一类常用的针对连续变量的降维方法，选取能够最大化解释数据变异的成分，将数据从高维降到低维，同时保证各个维度之间正交。

主成分分析的具体方法是对变量的协方差矩阵或相关系数矩阵求取特征值和特征向量，经证明，对应最大特征值的特征向量，其方向正是协方差矩阵变异最大的方向，依次类推，第二大特征值对应的特征向量，是与第一个特征向量正交且能最大程度解释数据剩余变异的方向，而每个特征值则能够衡量各方向上变异的程度。因此，进行主成分分析时，选取最大的几个特征值对应的特征向量，并将数据映射在这几个特征向量组成的参考系中，达到降维的目的（选择的特征向量数量低于原始数据的维数）。

当分析中所选的变量具有不同的量纲，且差别比较大的情况下，应选择相关系数矩阵进行主成分分析。

主成分分析适用于变量之间具有相关关系，变量在三维空间中呈现椭球形分布。多变量之间有显著的强线性相关，表明主成分分析是有意义的。

2.主成分的计算公式

3.散点图解

原始数据可以使用原坐标系中的向量来表示，协方差矩阵的特征向量为A和B，由于A方向的变异远大于B方向，因此，将所有点映射到A上，并使用A作为参考系来述数据，这样忽略了数据在B方向上的变异，但却将二维的数据降低到了一维。

4. 主成分分析的步骤

5. 选择主成分个数

主成分分析的目的是简化变量，一遍保留的主成分应该小于原始变量的个数。根据主成分分析的目的，个数选取的方法是有区别的。

具体保留几个主成分，应该遵循两个原则（两个原则同时使用，可只考虑一个）：

1. 单个主成分解释的变异不应该小于1（特征根值布小于1）

2. 选取的主成分的累计变异应该达到80% ~ 90%（累计特征根值占总特征根值80%以上）

6. 应用场景

主成分法的应用大致分为三个方面： 1、对数据做综合打分； 2、降维以便对数据进行描述；3、为聚类或回归等分析提供变量压缩。在应用时要能够判断主成分法的适用性，能够根据需求选取合适的主成分数量。

二、因子分析

1. 基本思想

主成分分析时一般情况下不能对主成分所代表含义进行业务上的解读，因为主成分方向上一般不会恰好某些变量权重大，而另外一些变量权重都小，这也表现在主成分权重的形成的散点图会偏离坐标轴。如果可以将主成分的坐标轴进行旋转，使一些变量的权重的绝对值在一个主成分上达到最大，而在其他主成分上绝对值最小，这样就达到了变量分类的目的。对应地，这种维度分析方法被称为因子分析。

因子分析是一类常用的连续变量降维并进行维度分析的方法，其经常采用主成分法作为其因子载荷矩阵的估计方法，在特征向量方向上，使用特征值的平方根进行加权，最后通过因子旋转，使得变量的权重在不同因子上更加两极分化。常用最大方差法进行因子旋转，这种方法是一种正交旋转。

2. 正交旋转因子模型

3. 因子分析的一般步骤

4. 因子载荷矩阵的估计

一般使用主成分分析方法。选择合适的因子数量，这一步需要主成分分析的结果，因子个数的确定标准比主成分分析宽，比如，特征根大于0.7就可以考虑保留。

5. 因子旋转

旋转的目的是使因子负荷两级分化，要么接近0，要么接近-1或1，这样易于对因子做出解释。

分为：正交旋转和斜交旋转。

正交旋转，因子间的信息不会重叠。最常用的是最大方差旋转，是一种正交旋转，目的是使载荷平方的方差最大化。

6. 因子分析的应用

因子分析通主成分分析类似，适用于变量之间存在较强的线性关系的情况，能够综合出几项反映变量共同特别的指标。最简单的方法就是计算变量的相关系数矩阵，要是大部分相关系数值小于0.3，就不适用因子分析。还有一些检验方法，如巴特利特球形检验，KMO检验等。

因子分析作为维度分析的手段，是构造合理的聚类模型和稳健的分类模型的必然步骤，用于降低解释变量共线性带来的模型不稳定性。

三、聚类分析

聚类分析是一种分类的多元统计分析方法。按照个体或样品的特征将它们分类，使同一类别内的个体具有尽可能高的同质性(homogeneity)，而类别之间则应具有尽可能高的异质性。

1.聚类分析的基本逻辑

聚类分析的基本逻辑是计算观测值之间的距离或者相似度。距离较小、相似度较高，按照相似度进行分组。

具体可以分为三个步骤：

1. 从N个观测和K个熟悉数据开始；

2. 计算N个观测两两之间的距离；

3. 将距离近的观测聚为一类，将距离远的分为不同的类，最终达到组间的距离最大化，组内的距离最小化。

2.聚类分析的方法种类

系统聚类法（层次聚类）：该方法可以得到较理想的分类，但是难以处理大量样本。

K-means聚类（非层次聚类、快速聚类）：可以处理大量样本，但是不能提供类相似度信息，不能交互的决定聚类个数。

两步法聚类（先使用K-means聚类，后使用层次聚类）

3. 系统聚类

系统聚类，也就是层次聚类，指的是形成类相似度层次图谱，便于直观的确定类之间的划分。其基本思想在于令 n 个样本自成一类，计算其两两之间的相似性，此时类间距离与样本间距离是等价的。把测度最小的两个类合并，然后按照某种聚类方法计算类间的距离，再按最小距离准则并类。这样每次减少一类，持续下去，直到所有样本都归为一类为止。该方法可以得到较理想的分类，但是难以处理大量样本。

1. 基本步骤

（1）对数据进行变换处理；（不是必须的，当数量级相差很大或指标变量具有不同单位时是必要的）

（2）构造n个类，每个类只包含一个样本；

（3）计算n个样本两两间的距离；

（4）合并距离最近的两类为一新类；

（5）计算新类与当前各类的距离，若类的个数等于1，转到6；否则回4；

（6）画聚类图；

（7）决定类的个数，从而得出分类结果。2. 数据预处理

不同要素的数据往往具有不同的单位和量纲，其数值的变异可能是很大的，这就会对分类结果产生影响，因此当分类要素的对象确定之后，在进行聚类分析之前，首先要对连续变量进行处理。

在聚类分析中，常用的聚类要素的数据处理方法有如下几种：

①Z soroes标准化

②标准差标准化

③正态标准化

经过这种标准化所得的新数据，各要素的极大值为1，极小值为0，其余的数值均在0与1之间。

为了得到合理的聚类结果，不但要对数据进行标准化，还要对变量进行维度分析。一般采用因子分析进行维度分析，根据样本的特征选择因子转换的方法，对观测数据进行处理，并在保存的因子结果上进行聚类分析。

如果变量呈偏态分布，可以对数据进行函数变换来克服偏态性，如对数变换。

3.观测点间距离的计算

在聚类时的一个重要问题是定义样本距离，一般使用欧式距离或闵可夫斯基距离，闵可夫斯基距离公式如下：

4. 观测类间聚类的计算

另一个重要为题是定义两个类之间的距离，方法包括平均联接法、重心法和 Ward 最小方差法。

（1）平均连接法又称全连接法，即将一类的所有观测值与另一类的所有观测值分别做两两之间的距离，求所有距离的平均值作为类间距离：

（2）重心法计算的是观测类各自重心之间的距离：

（3）Ward 最小方差法：基于方差分析的思想，如果分类合理，则同类样本间离差平方和应当较小，类与类间离差平方和应当较大。 Ward 最小方差法并类时，总是使并类导致的类内离差平方和增量最小。因此，该方法很少受到异常值的影响，在实际应用中的分类效果较好，适用范围广。但该方法要求样品间的距离必须是欧氏距离。

4. K-means聚类

K-means 聚类是一种快速聚类法，适合应用于大样本量的数据。其方法可以总结为：首先随机选择 K 个点作为中心点，所有样本与这 K 个中心点计算距离，距离最近的样本被归为与中心点同类的点，然后重新计算每个类的中心，再次计算每个样本与类中心的距离，并按照最短距离原则重新划分类，如此迭代直至类不再变化为止。

1. 基本步骤

（1）设定K值，确定聚类数（软件随机分配聚类中心所需的种子）。

（2）计算每个记录到类中心的距离（欧式聚类），并分成K类。

（3）然后把K类中心（均值）作为新的中心，重新计算距离。

（4）迭代到收敛标准停止。

2. 优缺点

该方法的优点是计算速度快，可用于样本量较大的数据，缺点是需要人为设定聚类的数量 K，同时其初始点的不同选择可能会形成不同的聚类结果，因此常常使用多次选择初始中心点，并对最终的多个聚类结果取平均的方法来构建稳定的模型。

3. 应用实例

发现异常值：如刷信用级别的违规者的行为会与正常消费行为在消费频次、平均消费金额等方面差异比较大，对其进行定位相当于发现异常点，因此要求对变量的转换不能改变其原有分布形态。常用的标准化方法如中心标准化、极差标准化不会改变分布形态，而且在聚类前往往需要使用标准化来消除变量的量纲。

四、对应分析

对应分析是一种数据分析技术，它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。主要适用于有多个类别的定类变量，可以揭示同一个变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。

1. 类型

简单对应分析：对两个分类变量进行的对应分析

多重对应分析：对多个分类变量进行的对应分析（最优尺度）

连续型变量的分析和分类变量的分析，连续型变量可以先分箱后再进行对应分析。

2. 对应分析和列联表分析的关系

在对两个分类变量进行分析时，列联表是常用的方式，但如果变量分类水平较多，往往很难直观地发现分类水平之间的相互联系，为此会使用对应分析方法来处理这个问题。

对应分析是用于寻求列联表的行和列之间的关系的一种低维图形表示法，它可以从直觉上揭示同一分类变量的各个类别之间的差异，以及不同分类变量各个类别之间的对应关系。

在对应分析中，列联表的每一行对应（通常是二维）图中的一点，每一列也对应同一图中的一点。本质上，这些点都是列联表的各行各列向一个二维欧式空间的投影，这种投影最大限度的保持了各行或各列之间的关系。

3. 对应分析和列联表分析的关系

对应分析是在主成分法基础上发展起来的一种技术，其通过对列联表进行转换，使得行与列各自的特征值分别相等，分别对行与列进行主成分分解时，可以使得各自的协方差矩阵的特征值相等，使用特征值的平方根对主成分方向的数据进行加权，保证了行与列可以在同一尺度下进行比较。

4.对应图的解读方法

1-总体观察：

2-观察邻近区域

3-向量分析——偏好排序

4-向量的夹角——余弦定理

5-从距离中的位置看

6-坐标轴定义和象限分析

7-产品定位：理想点与反理想点模型

8-市场细分和定位

5.优缺点

简单对应分析的优点：

定性变量划分的类别越多，这种方法的优势越明显。

揭示行变量类别间与列变量类别间的联系。

将类别联系直观地表现在二维图形中（对应图）。

可以将名义变量或次序变量转变为间距变量。

简单对应分析的缺点：

不能用于相关关系的假设检验。

维度要由研究者决定。

有时候对应图解释比较困难。

对极端值比较敏感。

五、多维尺度分析

多维尺度分析（MDS)，是基于研究对象之间的相似性或距离，将研究对象在一个低维（二维或三维）的空间形象地表示出来，进行聚类或维度分析的一种图示法。通过多维尺度分析所呈现的空间定位图，能简单明了地说明各研究对象之间的相对关系。

1.相似性或距离测量

多维尺度分析用于衡量样本间相异性（距离）或相似性程度。由于变量类型的不同，样本间的距离或相似性往往也需要采用不同的方法来衡量，比如闵可夫斯基距离、卡方距离、余弦相似度等等，应当熟知距离/相似性测量的原理和适用性，并正确使用。

2、多维尺度分析原理

3、多维尺度分析的应用

在市场研究领域主要研究消费者的态度，衡量消费者的知觉及偏好。涉及的研究对象非常广泛，例如：汽车、洗头水、饮料、快餐食品、香烟和国家、企业品牌、政党候选人等。通过MDS分析能够为市场研究提供有关消费者的知觉和偏好信息在市场研究领域主要研究消费者的态度，衡量消费者的知觉及偏好。

在需要比较样本间相异性或相似性的场合下，可以使用多维尺度分析，例如比较不同品牌/产品间相似性，用以寻找潜在的竞争对手。最终的结果往往是在二维感知图上来展示。

4、多维尺度分析与对应分析的区别

多维尺度分析描述的是行变量之间的关系，对应分析是描述行变量和列变量之间的关系。

六、预测性数据分析方法

1. 简单线性回归

2. 多元线性回归

1.多元回归方程2. 线性回归的五个假设

线性回归的重点与难点在于模型调优，整个优化过程可以看做是在将模型逐步调整到符合线性回归五个经典假设的过程，因为模型越符合其前假设，则预测结果越可靠。线性回归的五个假设为：

● 假设一：解释变量和被解释变量之间存在线性关系；（违反，则模型预测能力差）

● 假设二：解释变量和扰动项不能相关；（违反则回归系数估计有偏）

● 假设三：解释变量之间不能强线性相关（膨胀系数）；（违法则回归系数的标准误差被放大）

● 假设四：扰动项独立同分布（异方差检验、 DW 检验）；（违反则扰动项的标准误差估计不准，T检验失效）

● 假设五：扰动项服从正态分布（ QQ 检验）。（违反则T检验失效）

3. 模型变量的选择

模型变量选择的方法主要有：向前回归法、向后回归法、逐步回归法

4.线性回归分析的步骤

（ 1）要对数据做基本的分析，分析的是潜在的解释变量和被解释变量之间可能存在的基本关系；

（ 2）可以根据初步分析的结果构建候选模型；

（ 3）对候选模型进行有效性假设检验；

（ 4）对模型的共线性和影响点进行检测，修正模型可能存在的偏差；

（ 5）根据检测的结果对模型进行修正；

（ 6）对修正后的模型重新进行必要的有效性假设检验、共线性和影响点检测，直到模型不再需要进一步修正为止；

（ 7）对修正后的模型进行预测检验。建立有效的建模循环才能保证模型的正确性、有效性和精确性。5. 残差假设的检查

残差需要满足独立同分布和正态分布两个假设。

可以通过检查残差散点图和残差图对残差的线性回归假设进行检查。残差散点图主要看残差是否和某个解释变量存在曲线关系，以及残差的离散程度是否和某个解释变量有关。残差图主要是看残差是否有离群值。

（1）残差与自变量散点图呈抛物线。说明解释变量X和被解释变量Y存在高阶非线性关系。修正的方法是在模型中加绒解释变量X的高阶形式，如X2

（2）残差分布呈异方差。修正的方法最简单的是对Y取对数。

（3）残差呈自相关。修正的方法较简单的是加入被解释变量Y的一阶滞后项进行回归。使用DW检验确认残差的自相关关系。

由于无法观察到误差项 u t,只能通过残差项 e t来判断 u t 的行为。如果 u t或 e t呈出下图(a) -(d) 形式，则表示u t 存在自相关，如果 ut 或et 呈现图中 (e) 形式，则表示 u t不存在自相关。

DW=2 不相关；DW=0，扰动完全负相关；DW=4，扰动完全正相关。残差是否正态分布可以观察QQ图分布。

6.离群值

离群值可能会导致拟合曲线产生偏差。一般使用统计量来识别可能的离群值。

统计量：学生化残差、RSTUDENT残差、COOK‘s D、DFBETAS、DFFITS

处理离群值：重新检查数据，确认数据的有效性。如果有效，要分析包含和删除离群值的结果。为了更好的拟合数据，可能需要在模型中进入高阶项。

7. 共线性

识别变量共线性的工具：方差膨胀值、共线性分析（特征值和条件指数）、无截距的共线性分析

方差膨胀值VI大于10，强线性相关

3.逻辑回归

当反应变量是分类变量时，构造模型需要用到逻辑回归。

1. 分类变量的相关性检验

分类变量之间的相关性一般可以采用列联表分析或卡方检验的方法。

1. 列联表

列联表是两个分类变量的分类水平之间形成的交叉频数表，通过计算行百分比或列百分比，对实际频率和期望频率进行对比分析。

2,.卡方检验

卡方检验可用于两分类变量相关性的检验，卡方统计量如下：

可以看到统计量述的实际上是观察频数与期望频数之间的差值。

2.逻辑回归方程3. 评判模型表现优劣的方法

（1）一致性分析：计算一致的对数，不一致的对数、相等的对数来评估模型是否很好的预测了自身的数据。C值越大模型表现力越好。

（2）混淆矩阵的解读和通过 ROC 曲线评判模型的方法。

通过混淆矩阵，能够确定预测模型的灵敏度和特异度。灵敏度指的是模型“击中”的概率，而特异度指的是模型“正确否定”的概率。公式为灵敏度=A/（A+B）；特异度=D/（C+D）。

ROC 曲线是基于灵敏度和特异度画出的曲线。ROC 曲线下面积指的是 ROC 曲线和底线、右线围成的面积。由于灵敏度和特异度的取值范围都在[0,1]之间， ROC 曲线下面积值越接近1，表明模型预测能力越强。

七、时间序列

时间序列：系统中某一变量或指标的数值或统计观测值，按时间顺序排列成一个数值序列，就称为时间序列(Time Series)，又称动态数据。

1. 趋势分解法

1. 时间序列变化形式

时间序列主要考虑的因素是：

长期趋势(Long-term trend)

时间序列可能相当稳定或随时间呈现某种趋势。

时间序列趋势一般为线性的(linear)，二次方程式的 (quadratic)或指数函数(exponential function)。

季节性变动(Seasonal variation)

按时间变动，呈现重复性行为的序列。

季节性变动通常和日期或气候有关。

季节性变动通常和年周期有关。

周期性变动(Cyclical variation)

相对于季节性变动，时间序列可能经历“周期性变动”。

周期性变动通常是因为经济变动。

随机影响(Random effects)

如图所示，黑色的曲线代表时间序列的原始取值，而根据原始序列的时间走势就能确定该时间序列的长期趋势变动。而很多行业都是存在季节性变动的趋势的。比如，运输行业、风力发电行业。又比如，水果和蔬菜价格等。而循环趋势也成为周期趋势。比如经济周期趋势。相对而言，循环和季节性趋势是原始序列中较为稳健的趋势变动。而无规则的随机趋势是难以进行预测的，且波动较大。因此，对于时间序列的拆分，通常是将较为稳健的长期循环以及季节性趋势拆分出来，而不考虑随机趋势的影响。

2. 时间序列模型

2. 时间序列分析预测法的分类

平滑预测法

包括移动平均法和指数平滑法两种，其具体是把时间序列作为随机变量，运用算术平均和加权平均的方法做未来趋势的预测。这样得到的趋势线比实际数据点的连线要平滑一些，故称平滑预测法。

趋势外推预测法

根据预测对象历史发展的统计资料，拟合成预先指定的某种时间函数，并用它来描述预测目标的发展趋势。

平稳时间序列预测法

由于平稳时间序列的随机特征不随时间变化，所以可利用过去的数据估计该时间序列模型的参数，从而可以预测未来。

3.平稳时间序列 ARMA 模型

4779 次浏览