如何对用户进行聚类分析

如题所述

需要搜集用户的哪些特征?

聚类分析变量选择的原则是:在哪些变量组合的前提,使得类别内部的差异尽可能的小,即同质性高,类别间的差异尽可能的大,即同质性低,并且变量之间不能存在高度相关。

常用的用户特征变量有:

①  
人口学变量:如年龄、性别、婚姻、教育程度、职业、收入等。通过人口学变量进行分类,了解每类人口的需求有何差异。

②  
用户目标:如用户为什么使用这个产品?为什么选择线上购买?了解不同使用目的的用户的各自特征,从而查看各类目标用户的需求。

③  
用户使用场景:用户在什么时候,什么情况下使用这个产品?了解用户在各类场景下的偏好/行为差异。

④  
用户行为数据:如使用频率,使用时长,客单价等。划分用户活跃等级,用户价值等级等。

⑤  
态度倾向量表:如消费偏好,价值观等,看不同价值观、不同生活方式的群体在消费取向或行为上的差异。

需要多少样本量?

没有限制,通常情况下与实际应用有关,如果非要加一个理论的限制,通常认为,样本的个数要大于聚类个数的平方。

①如果需要聚类的数据量较少(<100),那么三种方法(层次聚类法,K-均值聚类法,两步聚类法)都可以考虑使用。优先考虑层次聚类法,因为层次聚类法产生的树状图更加直观形象,易于解释,并且,层次聚类法提供方法、距离计算方式、标准化方式的丰富程度也是其他两种方法所无法比拟的。

②如果需要聚类的数据量较大(>1000),应该考虑选择快速聚类别法或者两步聚类法进行。

③如果数据量在100~1000之间,理论上现在的计算条件是可能满足任何聚类方法的要求的,但是结果的展示会比较困难,例如不可能再去直接观察树状图了。

应用定量方法还是定性方法?

聚类分析是一种定量分析方法,但对聚类分析结果的解释还需要结合定性资料讨论。

1.聚类分析的定义与用途

聚类分析(Cluster Analysis)是一种探索性的数据分析方法,根据指标/变量的数据结构特征,对数据进行分类,使得类别内部的差异尽可能的小,即同质性高,类别间的差异尽可能的大,即同质性低。

2.聚类分析的方法

①层次聚类法(Hierarchical),也叫系统聚类法。既可处理分类变量,也可处理连续变量,但不能同时处理两种变量类型,不需要指定类别数。聚类结果间存在着嵌套,或者说层次的关系。

②K-均值聚类法(K-Means Cluster),也叫快速聚类法。针对连续变量,也可处理有序分类变量,运算很快,但需要指定类别数。K-均值聚类法不会自动对数据进行标准化处理,需要先自己手动进行标准化分析。

③两步聚类法(Two-Step Cluster):可以同时处理分类变量和连续变量,能自动识别最佳的类别数,结果比较稳定。如果只对连续变量进行聚类,描述记录之间的距离性时可以使用欧氏(Euclidean)距离,也可以使用对数似然值(Log-likelihood),如果使用前者,则该方法和传统的聚类方法并无太大区别;但是若进行聚类的还有离散变量,那么就只能使用对数似然值来表述记录间的差异性。当聚类指标为有序类别变量时,Two-Step Cluster出来的分类结果没有K-means cluster的明晰,这是因为K-means算法假定聚类指标变量为连续变量。

3.聚类分析的步骤

①确定研究目的:研究问题关注点有哪些、是否有先验分类数…

②问卷编制:态度语句李克特项目、有序类别…

③确定分析变量:问卷变量的类型,连续or分类,有序类别or无序类别、是否纳入后台数据,变量间相关性低…

④聚类分析:聚类分析方法选择、数据标准化方法、聚类类别数确定…

⑤结果检验:类别间差异分析、是否符合常理…

⑥聚类结果解释:类别的命名、类别间的差异、结合定性资料解释…

温馨提示:答案为网友推荐,仅供参考
相似回答