全球大数据初创公司在2016年创下了总计148亿美元的投资,其中10%由全球性的技术VC提供。
第二,2016年全景中曾提到,并购活动一直很稳定,但没有特别显著的案例,或许部分原因在于私营公司的估值一直保持高涨。2016年大数据全景有41家公司被并购,2017年并购的活动大体上会与去年持平。
另一方面,截至目前,2017年已经出现了一些大型的并购活动,包括Mobileye(被Intel以153亿美元收购)、AppDynamics(思科,37亿美元)、Nimble Storage(HPE,12亿美元)、Kaggle (Google收购)以及Dextro(Taser收购)等。
第三,一些大型大数据初创公司正在变成自主的上市公司。SNAP可以说是带动了技术公司IPO市场的复苏,但迄今为止,只有大数据企业成功抓住了这一机会。
虽然2016年,只有Talend一家大数据公司成功上市,但2017年到目前为止,该领域内满是 IPO机遇。Mulesoft和Alteryx成功上市且表现出色,发行价均超过了IPO价格。
在撰写本文时,Cloudera也即将上市,该公司最新预估价(41亿美元)与营收(2016年2.61亿美元)之间的空缺对于“独角兽”的估价现象将造成不小的考验。此外MapR以及位置智能公司Yext也正在准备上市。
谁会是下一个?Palantir多年来一直是业内最神秘的公司之一,目前也表示有公开上市的兴趣。鉴于Palantir最新的预估价为200亿美元,如果其公开估价能够接近这一水平,将可能成为IPO领域的一枚重磅炸弹
表 1.1 国内的大数据有关发展状况
成立时间 研究单位
2012.09.13 大数据科学与工程国际研究中心(北京航空航天大学国际交叉研究院)
2013.03.22 中国国际经贸大数据研究院。我国第一所以大数据研究为核心的国家级智库型科研机构。
2013.04.25 华东师范大学云计算与大数据研究中心
2013.07.06 厦门大学云计算与大数据研究中心
2013.09.06 上海市数据科学重点实验室(复旦大学)
2013.11.20 香港中文大学大数据决策分析研究中心
2014.04.16 清华青岛数据科学研究院。将推出多学科交叉培养的大数据硕士项目,9月份,第一批大数据硕士学位研究生将正式开始培养。
1.2.2 文本分类研究现状
随着大数据时代的到来,无论是离线数据还是互联网数据都是随着指数级增长,那么些巨量的数据主要以半结构化文件和文本结构化为主要,所以,怎么从海量数据中有效快速的查找到我们需要的实用性数据,提高我们的查找准确率会是一个巨大的挑战。而信息的检索首先就是要需要对文本的数据进行有效分类,所以文本分类将是文本数据处理的难点。文本分类就是是随着信息检索的需求而发展起来。文本的分类就是把相同的、有关的文本进行标注和分类,将混乱的文本进行目录化和组织化以达到提高信息检索的效率以及准确率。
那么国外从1950年就开始研究文本得分类领域知识。由H.P Luhnp[8]创新地将词频统计的思想应用到了文本得分类中,根据词频的不同去对文本进行分类,这也就是现在文本得分类预处理不可或缺的重要部分。1960年,Maron首次将贝叶斯算法应用到文本分类中[9]。这也是首次采用机器学习算法进行文本分类研究。1975年,由Salton[10]提出的将向量空间模型应用在文本分类中。这是首次将统计学方法用在文本的分类中,通过对文本的特征进行向量化,对于文本标记和模型计算都有巨大推动。以上三个伟大的学者对于文本分类的贡献,基本奠定了现代文本分类研究的基础。