一个企业级数据挖掘实战项目｜客户细分模型（上）-火龙果软件

捐助

一个企业级数据挖掘实战项目｜客户细分模型（上）

作者：云朵君

1967 次浏览

2021-11-11

编辑推荐:

本文阐述比较详细，包括代码演示、可视化图形展示、以及文字详细分析。分析较浅，希望能够给大家带来些许帮助，欢迎交流学习
本文来自数据STUDIO ，由火龙果软件Alice编辑、推荐。

客户细分模型是将整体会员划分为不同的细分群体或类别，然后基于细分群体做管理、营销和关怀。客户细分模型常用于整体会员的宏观性分析以及探索性分析，通过细分建立初步认知，为下一步的分析和应用提供基本认知。常用方法包括：基于属性的方法、ABC分类法、聚类法

基于属性方法

客户地域 -- 如北京、上海

产品类别 -- 如家电、图书

客户类别 -- 大客户、普通客户、VIP客户

客户性别 -- 男、女

会员消费等级 -- 高、中、低价值会员

ABC分类法

Activity Based Classification 是根据事物的主要特征做分类排列，从而实现区别对待、区别管理的一种方法。ABC法则强调的是分清主次。具体做法，先将目标数据列倒序排序，然后做累积百分比统计，最后将得到的累积百分比按照下面的比例划分为A、B、C三类。

A类因素：主要影响，累积频次为0%～80%

B类因素：次要影响，累积频次为80%～90%

C类因素：一般影响，累积频次为90%～100%

聚类法

常用的非监督方法，无须任何的先验知识，只需要指定要划分的群体数量即可。这里可以参见总结的常用聚类模型kmeans聚类

本文客户细分方法

将使用电子商务用户购买商品数据集，并尝试开发一个模型，主要目的是完成以下两个部分。

对客户进行细分。

通过为新客户分配适当的簇群，预测下一年新客户将进行的购买行为。

本文主要内容

本次实战项目共分为上下两部分，上篇（本篇）包括探索性数据分析，产品类别分析两部分；下篇将包括客户细分和客户行为分析与预测。本篇主要结构与内容思维导图如下图所示。

探索性数据分析和预处理

数据准备

Dataframe维度: (284709, 8)

缺失值分析

缺失值分析与处理是指对原始数据中缺失的数据项进行预处理，以免影响模型精度和稳定性。数据缺失值处理方法有不少，这里可以参见之前总结的缺失值处理，你真的会了吗？

删除缺失值

从上面缺失值分析结果看到，客户ID 约22%的数据记录是空的，这意味着有约22%的数据记录没有分配给任何客户。而我们不可能把这些记录的值映射到任何客户。所以这些对于目前是没有用的，因此我们可以将其删除。

删除重复值

重复的数据条目: 3175

变量'国家'分析

统计下来，共有 32 个国家。并根据每个国家的订单量进行计数求和，排序后绘制国家--国家订单量柱状图，如下所示。

变量'客户和产品'分析

本数据包含约200,000条记录。这些记录中的用户和产品数量分别是多少呢?

可以看到，该数据集包含3341个用户的记录，这些用户购买了3182种不同的商品。有约11000的交易被执行。现在我们需要了解每笔交易中购买的产品数量。

此处需注意的要点:

有一些用户在电子商务平台上只购买了一次，或只购买了一件商品。这类用户如客户ID为12371。

有一些用户经常在每个订单中购买大量商品。这类用户如客户ID为12347。

如果你仔细观察订单编号数据特征，那么你很容易就能发现有些订单编号有个前缀 C 。这个 C 表示该订单已经被取消。如下图中 C560735 。下面就来具体分析下取消的订单一些特征。

取消订单分析

这里统计被取消订单对应的交易数量。

取消订单数量: 1686/11068 (15.23%)

得到结果已取消的交易数目相当大(约占交易总数的15%)。这里，仔细观察数据集，尤其是取消的订单，可以想到，当一个订单被取消时，在数据集中可能会存在另一条对应的记录，该记录除了数量和订单日期变量之外，其他变量内容基本相同。下面检查一下是否所有的记录都是这样的。具体做法是：

先筛选出负数数量的记录，并在所有数据中检查是否有一个具有相同数量(但为正)的订单，其它属性都相同( 客户ID ，描述和单价 )

有些取消订单中，描述列会标注"Discount"，因此将包含该特征的记录筛除后寻找。

没有得到理想的结果，说明取消订单不一定与事先已下的订单相对应。此时，可以在数据表中创建一个新变量，用于指示是否取消了部分订单。而对于其中没有对应购买订单的取消订单记录，可能是由于购买订单是在录入数据库之前执行的。下面对取消的订单进行了一次普查，并检查是否有对应购买订单存在。

没有对应购买记录的取消订单和有对应购买记录的取消订单分别存储在' doubtfull_entry 和 entry_to_remove 列表，他们的个数分别为1672和3435，而这部分数据我们也需要将其删除。

库存代码分析

从上面分析内容中看到，库存代码变量的一些值表示一个特定的交易( D代表Discount )。下面通过正则表达式寻找只包含字母的代码集，统计出这个变量都有哪些值。

我们看到有几种特殊的交易类型，如与港口费或银行费有关。

购物车价格分析

接下来是衍生变量：每次购买的总价 = 单价 * (订单数量 - 取消订单数量)

数据集中的每一条记录都表示一种产品的价格。而一条订单可以被分成几条记录。因此需要将一条订单中所有价格汇总求和，得到每一个订单总价。

以客户ID和订单编号作为聚合对象，对总价进行求和。

订单日期处理，现将订单日期转换为整数类型，聚合后求平均值，在转换为日期型。

最后筛选出购物车价格大于0的重要记录。

接下来将购物车总价进行离散化处理，并汇总可视化得到如下图所示的结果。

可以看出，绝大多数订单购买价格相对较大的，约有65%的采购超过了200英镑的价格。

产品类别分析

在数据集中，产品是通过变量库存代码唯一标识的。产品的简短描述在变量描述中给出。在这里计划使用后一个变量的内容，即变量描述，以便将产品分组到不同的类别中。因此这里就涉及到自然语言处理，需要先将简短描述分词后再统计。由于数据集使用的是纯英文数据集，因此这里选用 nltk 库进行处理。

产品描述

首先从描述变量中提取有用的信息。因此这里定义了一个函数。

这个函数以dataframe作为输入，分析描述列的内容，执行如下操作:

提取产品描述中出现的名称(适当的，常见的)

对于每个名称，提取单词的根，并聚合与这个特定根相关的名称集

每个根出现在数据集中的次数计数

当几个单词被列出为同一个词根时，我认为与这个词根相关的关键字是最短的名字(当有单数/复数变体时，系统地选择单数)

这个函数的执行返回四个变量:

' keywords '

提取的关键字列表

' keywords_roots '

一个字典，其中键是关键字的根，值是与这些根相关联的单词列表

' count_keywords '

字典中列出每个单词使用的次数

'keywords_select'

字典中列出每个单词词根<->关键字间的关联关系

接下来先对所有产品描述进行去重处理，再运用上面定义的函数进行词根提取并统计.

从结果看，变量中关键字 '描述' 的数量共 1347个。此时，将其中一个结果 ' count_keywords ' 字典转换为一个列表，根据关键词的出现情况对它们进行排序。

因为字体有点小，不过不影响我们理解实操逻辑。你也可以通过绘制横向柱状图，调大轴标签大小，来自己探究每个词根。大家可以自己尝试。

定义产品类别

上面结果中，我们获得的列表中包含1400多个关键词，而最频繁的关键词出现在200多种产品中。然而，在仔细检查列表中内容时发现，有很多名称是无用的，不携带任何有用的信息，比如颜色、标签等。因此，接下来需要将这些词从数据集中删除。另外，为了更加便捷有效地分析数据，我决定只考虑那些出现超过 13 次的词。