2 模型准备
2.1 数据的来源
本文数据来自于皇包车,皇包车(HI GUIDES)是一个为中国出境游用户 提供全球中文包车游服务的平台.拥有境外 10 万名华人司机兼导游(司导),覆 盖全球 90 多个国家,1600 多个城市,300 多个国际机场.截止 2017 年 6 月,已 累计服务 400 万中国出境游用户.皇包车中 Datacastle 提供的竞赛数据包含了 5 万多名用户的个人信息,以及他们上百万条的浏览记录和相应的历史订单记 录,还包含有用户对历史订单的评论信息的数据.
(a) 用户个人信息:userProfile.csv.数据共有五列,分别是用户 id、性别、省 份、年龄段、职业.
Userid Gender Province Age Job
100000000127 Na 上海 Na 1
100000000231 男 北京 70 后 2
(b) 用户行为信息:action.csv.数据共有三列,分别是用户 id,行为类型,发生 时间.行为类型一共有 9 个,其中 1 是唤醒 app;2~4 是浏览产品,无先后关 系;5~9 则是有先后关系的,从填写表单到提交订单再到最后支付.
Userid Actiontype Actiontime
100000000111 1 1490971433
100000000111 5 1490971446
100000000111 6 1490971479
100000000127 1 1490695669
(c) 用户历史订单数据:orderHistory.csv.该数据描述了用户的历史订单信息.数 据共有 7 列,分别是用户 id,订单 id,订单时间,订单类型,旅游城市,国 家,大陆.其中 1 表示购买了精品旅游服务,0 表示普通旅游服务.
Userid Orderid Ordertime Ordertype City Country Continent
100000000371 1000709 1503443585 0 东京 日本 亚洲
100000000393 1000952 1499440296 0 巴黎 法国 欧洲
(d) 评论数据:userComment.csv.共有 5 个字段,分别是用户 id,订单 id,评 分,标签,评论内容.
Userid Orderid Rating Tags Commentskeywords
100000550471 1001899 5.0 Na Na
10044000637
1001930
5.0