主动热情|提前联系|景 点介绍详尽|耐心等候

Na

111333446057 1001960 5.0 主动热情|耐心等候 ['平稳''很好']

2.2 数据清洗及特征提取

对于用户行为信息数据,其中的用户行为类型一共有 9 个,其中类型 1 是 唤醒 app;类型 2~4 是浏览产品的行为,其并无先后关系,是类别型变量;类 型 5~9 则是有先后关系的,从填写表单到提交订单再到最后支付,属于有序变 量,这里我们单独提取出来构造新的变量.对于这些数据,提取了各个行为占据 行为总数的比值.特定时刻的行为(最后一次 Type,倒数第二次 Type,倒数第 三次 Type,第一次 Type).

对于用户历史订单数据,数据共有 7 列,分别是用户 id,订单 id,订单时 间,订单类型,旅游城市,国家,大陆.这里在处理的时候,提取了 ever_buy 特 征,即在之前是否购买了精品旅游服务.

对于用户的评论数据,计算了用户的平均评分,并对用户的评论词语进行 了关键词计算,得到了情感得分等指标.

2.3 类别变量处理

皇包车收集到的大量用户信息,每一类信息不同用户的行为不同,导致信 息量较大.在大量用户行为信息中一部分可以划归为类别变量,为了简化数据, 我们选择使用聚类分析法将用户信息分类.

聚类分析[3]是将研究对象分为相对同质的组群的一种统计分类方法,它可 以将研究对象分到不同的类中,并且使同一个类中的元素有较大的相似性,而 不同类之间的元素有较大的相异性.K-means 算法[4]是使用最广泛的一种聚类算 法,它的目的是使每个样本与其所在类均值的误差平方和最小,这种算法已经 成功地应用于医学信息处理、图像识别、股票预测分析等重要领域中.但是,我 们需要预先选择聚类的个数 K,聚类的结果受到聚类个数的影响,因此,聚类 个数的选择也十分重要.

本文在由皇包车采集到的丰富信息的基础上,利用 K-means 聚类方法来简 化数据.首先,利用最小组内平方和法将样本的最佳聚类个数确定出来.随着聚类 数目增多,每一个类别中数量越来越少,距离越来越近,因此组内平方误差和 肯定是随着聚类数目增多而减少的,所以关注的是斜率的变化.但组内平方误差 和减少得很缓慢时,我们就可以认为进一步增大聚类数目效果也并不能增强,

存在的这个“肘点”[5]就是最佳聚类数目

上一篇:杭州市中考二次函数题型分析
下一篇:没有了

分布式拒绝服务的攻击检测和控制方法

淮安市公共交通服务现状调查

基于遥感的镇江市土地利...

双服务台排队模型研究及其应用

带有负顾客及反馈优先权...

孝陵卫苏果超市收费服务台排队系统统计分析

排队论在某沃尔玛超市服...

脑梗塞患者偏瘫肢体康复...

基于蒙特卡洛仿真的系统可靠性参数研究

轨道交通LTE同频组网方案设计

发酵鲜湿米粉的制备及流变性研究

视觉定位控制的研究现状

Android手机安全系统的设计与实现+源代码

适合00后创业项目 适合青...

未来智能油烟机设计

试论小學体育教學中存茬的问题【1651字】

论述建筑电气防雷接地系...