数据清洗及特征提取 3

2.3 类别变量处理 3

2.4 数值变量处理 5

3 降维 6

3.1 主成分分析(PCA) 6

3.2 t-分布邻域嵌入算法(t-SNE) 7

4 分类器的选择 9

4.1 Logistic 回归 9

4.2 数据不平衡的处理 10

4.3 结果分析 11

5 贝叶斯组合预测 12

5.1 理论推导 12

5.2 模型比较 13

6 总结 16

参考文献 17

附录 18

(一) Kmeans 分箱算法 18

(二) 贝叶斯组合预测 19

致 谢 23

1 引言

1.1 研究的目的和意义

中央在 2018 年发布了《关于促进全域旅游发展的指导意见》[1],文件中确 立了旅游业在国民经济中属于“战略性产业”.旅游业市场体系日益完善,市场规 模不断扩大,大众的旅游消费也大幅度增加.旅游业的快速发展也为国家经济的 发展起了推动作用,扩大了就业,拉动投资,改善人民生活质量.

随着消费者的消费能力逐渐增强以及旅游信息不透明程度逐年下降,消费 者的旅游意愿,消费行为逐渐变得难以预测,传统的旅游模式已经不能完全满 足游客的需求.因而为用户提供更加受欢迎、更加合适的包车游路线,并且结合 用户个人喜好、景点受欢迎度、天气交通等维度,制定多套旅游信息化解决方 案和产品并精准地向用户推荐,毫无疑问,这些都会在各方面为企业带来巨大 的收益.旅游个性化应运而生,而在个性化方面,针对特定消费者群体定制的精 品旅游是非常重要的,如何识别用户是否会购买精品旅游服务更是至关重要的

[2].

1.2 研究的内容和方法

首先,我们通过对给定的精品旅游数据进行详细地统计描述和对比分析, 确定了各个自变量与因变量关系,并结合 R 语言对变量进行了必要的清洗.

其次,为了建立预测模型,我们分别通过 K-means 算法[4]对分类型自变量 进行了特征提取,通过 ChiMerge 对数值型变量进行处理,并对提取完的特征进 行了标准化处理.针对文本数据,我们通过 jieba 分词进行分词处理,并提取了 相应的 keywords,并转化为了词向量矩阵,针对词向量,我们根据用户词典, 以及哈工大的词林库为它计算了情感倾向得分.

最后,我们构建了基于贝叶斯方法的组合预测模型,并利用 Bootstrap 方法 对模型的稳定性进行了测试,我们发现我们模型的正确率为 97.86%,标准差为 0.00038,模型具有非常高的准确率,而且十分稳定.

上一篇:杭州市中考二次函数题型分析
下一篇:没有了

分布式拒绝服务的攻击检测和控制方法

淮安市公共交通服务现状调查

基于遥感的镇江市土地利...

双服务台排队模型研究及其应用

带有负顾客及反馈优先权...

孝陵卫苏果超市收费服务台排队系统统计分析

排队论在某沃尔玛超市服...

脑梗塞患者偏瘫肢体康复...

基于蒙特卡洛仿真的系统可靠性参数研究

轨道交通LTE同频组网方案设计

发酵鲜湿米粉的制备及流变性研究

视觉定位控制的研究现状

Android手机安全系统的设计与实现+源代码

适合00后创业项目 适合青...

未来智能油烟机设计

试论小學体育教學中存茬的问题【1651字】

论述建筑电气防雷接地系...