Na
111333446057 1001960 5.0 主动热情|耐心等候 ['平稳''很好']
2.2 数据清洗及特征提取
对于用户行为信息数据,其中的用户行为类型一共有 9 个,其中类型 1 是 唤醒 app;类型 2~4 是浏览产品的行为,其并无先后关系,是类别型变量;类 型 5~9 则是有先后关系的,从填写表单到提交订单再到最后支付,属于有序变 量,这里我们单独提取出来构造新的变量.对于这些数据,提取了各个行为占据 行为总数的比值.特定时刻的行为(最后一次 Type,倒数第二次 Type,倒数第 三次 Type,第一次 Type).
对于用户历史订单数据,数据共有 7 列,分别是用户 id,订单 id,订单时 间,订单类型,旅游城市,国家,大陆.这里在处理的时候,提取了 ever_buy 特 征,即在之前是否购买了精品旅游服务.
对于用户的评论数据,计算了用户的平均评分,并对用户的评论词语进行 了关键词计算,得到了情感得分等指标.
2.3 类别变量处理
皇包车收集到的大量用户信息,每一类信息不同用户的行为不同,导致信 息量较大.在大量用户行为信息中一部分可以划归为类别变量,为了简化数据, 我们选择使用聚类分析法将用户信息分类.
聚类分析[3]是将研究对象分为相对同质的组群的一种统计分类方法,它可 以将研究对象分到不同的类中,并且使同一个类中的元素有较大的相似性,而 不同类之间的元素有较大的相异性.K-means 算法[4]是使用最广泛的一种聚类算 法,它的目的是使每个样本与其所在类均值的误差平方和最小,这种算法已经 成功地应用于医学信息处理、图像识别、股票预测分析等重要领域中.但是,我 们需要预先选择聚类的个数 K,聚类的结果受到聚类个数的影响,因此,聚类 个数的选择也十分重要.
本文在由皇包车采集到的丰富信息的基础上,利用 K-means 聚类方法来简 化数据.首先,利用最小组内平方和法将样本的最佳聚类个数确定出来.随着聚类 数目增多,每一个类别中数量越来越少,距离越来越近,因此组内平方误差和 肯定是随着聚类数目增多而减少的,所以关注的是斜率的变化.但组内平方误差 和减少得很缓慢时,我们就可以认为进一步增大聚类数目效果也并不能增强,
存在的这个“肘点”[5]就是最佳聚类数目