精品旅行服务成单预测研究(4)

主动热情|提前联系|景点介绍详尽|耐心等候

111333446057 1001960 5.0 主动热情|耐心等候 ['平稳''很好']

2.2 数据清洗及特征提取

对于用户行为信息数据，其中的用户行为类型一共有 9 个，其中类型 1 是唤醒 app；类型 2~4 是浏览产品的行为，其并无先后关系，是类别型变量；类型 5~9 则是有先后关系的，从填写表单到提交订单再到最后支付，属于有序变量，这里我们单独提取出来构造新的变量.对于这些数据，提取了各个行为占据行为总数的比值.特定时刻的行为（最后一次 Type，倒数第二次 Type，倒数第三次 Type，第一次 Type）.

对于用户历史订单数据，数据共有 7 列，分别是用户 id，订单 id，订单时间，订单类型，旅游城市，国家，大陆.这里在处理的时候，提取了 ever_buy 特征，即在之前是否购买了精品旅游服务.

对于用户的评论数据，计算了用户的平均评分，并对用户的评论词语进行了关键词计算，得到了情感得分等指标.

2.3 类别变量处理

皇包车收集到的大量用户信息，每一类信息不同用户的行为不同，导致信息量较大.在大量用户行为信息中一部分可以划归为类别变量，为了简化数据，我们选择使用聚类分析法将用户信息分类.

聚类分析[3]是将研究对象分为相对同质的组群的一种统计分类方法，它可以将研究对象分到不同的类中，并且使同一个类中的元素有较大的相似性，而不同类之间的元素有较大的相异性.K-means 算法[4]是使用最广泛的一种聚类算法，它的目的是使每个样本与其所在类均值的误差平方和最小，这种算法已经成功地应用于医学信息处理、图像识别、股票预测分析等重要领域中.但是，我们需要预先选择聚类的个数 K，聚类的结果受到聚类个数的影响，因此，聚类个数的选择也十分重要.

本文在由皇包车采集到的丰富信息的基础上，利用 K-means 聚类方法来简化数据.首先，利用最小组内平方和法将样本的最佳聚类个数确定出来.随着聚类数目增多，每一个类别中数量越来越少，距离越来越近，因此组内平方误差和肯定是随着聚类数目增多而减少的，所以关注的是斜率的变化.但组内平方误差和减少得很缓慢时，我们就可以认为进一步增大聚类数目效果也并不能增强，

存在的这个“肘点”[5]就是最佳聚类数目

上一篇：杭州市中考二次函数题型分析

下一篇：基于ArcEngine的洪涝灾害模拟系统设计与实现

精品旅行服务成单预测研究(4)

分布式拒绝服务的攻击检测和控制方法

淮安市公共交通服务现状调查

基于遥感的镇江市土地利...

双服务台排队模型研究及其应用

带有负顾客及反馈优先权...

孝陵卫苏果超市收费服务台排队系统统计分析

排队论在某沃尔玛超市服...

数据库代码自动生成器的设计与实现

二元亚波长衍射微透镜的设计

PLC控制的五层电梯设计+梯形图

三胎政策缓解人口老龄化...

传统民间游戏在幼儿园开...

社区养老服务文献综述和参考文献

模糊综合评价的京郊节水农业研究【1338字】

法语论文1789年法国大革命...

探究老年胃肠肿瘤伴糖尿...

涟水县农村中小学音乐教育现状调查研究