2.3 类别变量处理 3
2.4 数值变量处理 5
3 降维 6
3.1 主成分分析(PCA) 6
3.2 t-分布邻域嵌入算法(t-SNE) 7
4 分类器的选择 9
4.1 Logistic 回归 9
4.2 数据不平衡的处理 10
4.3 结果分析 11
5 贝叶斯组合预测 12
5.1 理论推导 12
5.2 模型比较 13
6 总结 16
参考文献 17
附录 18
(一) Kmeans 分箱算法 18
(二) 贝叶斯组合预测 19
致 谢 23
1 引言
1.1 研究的目的和意义
中央在 2018 年发布了《关于促进全域旅游发展的指导意见》[1],文件中确 立了旅游业在国民经济中属于“战略性产业”.旅游业市场体系日益完善,市场规 模不断扩大,大众的旅游消费也大幅度增加.旅游业的快速发展也为国家经济的 发展起了推动作用,扩大了就业,拉动投资,改善人民生活质量.
随着消费者的消费能力逐渐增强以及旅游信息不透明程度逐年下降,消费 者的旅游意愿,消费行为逐渐变得难以预测,传统的旅游模式已经不能完全满 足游客的需求.因而为用户提供更加受欢迎、更加合适的包车游路线,并且结合 用户个人喜好、景点受欢迎度、天气交通等维度,制定多套旅游信息化解决方 案和产品并精准地向用户推荐,毫无疑问,这些都会在各方面为企业带来巨大 的收益.旅游个性化应运而生,而在个性化方面,针对特定消费者群体定制的精 品旅游是非常重要的,如何识别用户是否会购买精品旅游服务更是至关重要的
[2].
1.2 研究的内容和方法
首先,我们通过对给定的精品旅游数据进行详细地统计描述和对比分析, 确定了各个自变量与因变量关系,并结合 R 语言对变量进行了必要的清洗.
其次,为了建立预测模型,我们分别通过 K-means 算法[4]对分类型自变量 进行了特征提取,通过 ChiMerge 对数值型变量进行处理,并对提取完的特征进 行了标准化处理.针对文本数据,我们通过 jieba 分词进行分词处理,并提取了 相应的 keywords,并转化为了词向量矩阵,针对词向量,我们根据用户词典, 以及哈工大的词林库为它计算了情感倾向得分.
最后,我们构建了基于贝叶斯方法的组合预测模型,并利用 Bootstrap 方法 对模型的稳定性进行了测试,我们发现我们模型的正确率为 97.86%,标准差为 0.00038,模型具有非常高的准确率,而且十分稳定.