2 模型准备

2.1 数据的来源

本文数据来自于皇包车,皇包车(HI GUIDES)是一个为中国出境游用户 提供全球中文包车游服务的平台.拥有境外 10 万名华人司机兼导游(司导),覆 盖全球 90 多个国家,1600 多个城市,300 多个国际机场.截止 2017 年 6 月,已 累计服务 400 万中国出境游用户.皇包车中 Datacastle 提供的竞赛数据包含了 5 万多名用户的个人信息,以及他们上百万条的浏览记录和相应的历史订单记 录,还包含有用户对历史订单的评论信息的数据.

(a) 用户个人信息:userProfile.csv.数据共有五列,分别是用户 id、性别、省 份、年龄段、职业.

Userid Gender Province Age Job

100000000127 Na 上海 Na 1

100000000231 北京 70 后 2

(b) 用户行为信息:action.csv.数据共有三列,分别是用户 id,行为类型,发生 时间.行为类型一共有 9 个,其中 1 是唤醒 app;2~4 是浏览产品,无先后关 系;5~9 则是有先后关系的,从填写表单到提交订单再到最后支付.

Userid Actiontype Actiontime

100000000111 1 1490971433

100000000111 5 1490971446

100000000111 6 1490971479

100000000127 1 1490695669

(c) 用户历史订单数据:orderHistory.csv.该数据描述了用户的历史订单信息.数 据共有 7 列,分别是用户 id,订单 id,订单时间,订单类型,旅游城市,国 家,大陆.其中 1 表示购买了精品旅游服务,0 表示普通旅游服务.

Userid Orderid Ordertime Ordertype City Country Continent

100000000371 1000709 1503443585 0 东京 日本 亚洲

100000000393 1000952 1499440296 0 巴黎 法国 欧洲

(d) 评论数据:userComment.csv.共有 5 个字段,分别是用户 id,订单 id,评 分,标签,评论内容.

Userid Orderid Rating Tags Commentskeywords

100000550471 1001899 5.0 Na Na

10044000637

1001930

5.0

上一篇:杭州市中考二次函数题型分析
下一篇:没有了

分布式拒绝服务的攻击检测和控制方法

淮安市公共交通服务现状调查

基于遥感的镇江市土地利...

双服务台排队模型研究及其应用

带有负顾客及反馈优先权...

孝陵卫苏果超市收费服务台排队系统统计分析

排队论在某沃尔玛超市服...

脑梗塞患者偏瘫肢体康复...

基于蒙特卡洛仿真的系统可靠性参数研究

轨道交通LTE同频组网方案设计

发酵鲜湿米粉的制备及流变性研究

视觉定位控制的研究现状

Android手机安全系统的设计与实现+源代码

适合00后创业项目 适合青...

未来智能油烟机设计

试论小學体育教學中存茬的问题【1651字】

论述建筑电气防雷接地系...