毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
基于机器学习的数据处理平台研究与设计(2)
1.1.2 数据存储 数据处理平台的数据存储指基于分布式存储方案,按照用户自定义或通用的存储结构,存储采集后与处理后的数据,并能够进行快速的结构化查询。 过去在Hadoop分布式方案出现之前,通常采用“DB路由”的方式进行数据切分,通过规约将查询命令转发到规定的服务器数据库上存取数据。部分规模较大的企业和部门付出昂贵的设备费用用于提升单机磁盘空间与传输速率,以保证其数据存储的稳定性。 本文采用的是近年来比较知名的 Hadoop存储方案。 Hadoop的运行机制来源于谷歌针对搜索引擎技术而特制的 MapReduce编程包。Hadoop是一个更易于扩展与维护的分布式计算平台,用户能够将更多的精力集中在研发算法与实现业务这几方面。Hadoop 平台主要有以下几个优点: (1) 高扩展性:Hadoop 能够按位进行数据存储-吹冰`文~论^文.网www.chuibin.com,容错能力更高。 (2) 高可靠性:Hadoop 根据MapReduce方式能够更好地实现分布式处理机制,使得集群的可靠性更高。(3) 高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。 (4) 高容错性:Hadoop 能够自动将备份数据保存至硬盘,对于执行失败的调度支持重跑机制。 (5) 低成本:Hadoop是开源项目,能够大大降低软件成本。 Hadoop在数据提取加载和变形上有着
数学
方面的天然优势,因此能够更好地应用于大数据处理平台。Hadoop的分布式架构,在利用内存处理数据的基础上,更偏向于将数据保存在稳妥的硬盘存储系统中,对例如像 ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。而Hadoop的MapReduce模式能够将集成多个单操作的任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里[2]。
1.1.3 数据挖掘 数据处理平台的数据挖掘指从大量采集后的数据中挖掘有意义的模式和知识的过[3]。本文中的数据挖掘包括网络的数据挖掘及媒体的数据挖掘,本文采用Spark框架进行数据挖掘,具体的技术细节将在第二章中介绍。 1960年至今,数据库存储技术已经从原始的表格处理演变成复杂的,立体的数据仓库形式。随着
计算机
硬件的稳步快速发展,各单位机构都积累了海量的、不同形式的无效数据[4]。尽管在这期间开发专家系统方面已经做出了很大努力,但这种系统通常依赖用户或领域专家人工地将知识输入知识库,而这些知识难免会有偏差和错误,并且录入费用高昂。因此,人们继续研发出高性能的智能计算工具,将“数据坟墓”转换为有价值的信息。由此,数据挖掘技术诞生了。 (1) 数据清洗:消除噪声和删除不一致的数据。 (2) 数据集成:将多种数据组合在一起。 (3) 数据选择:从存储系统中提取相关的数据进行分析。 (4) 数据变换:将数据矩阵进行合并、归一化等操作。 (5) 数据挖掘:使用智能算法提取数据模式 (6) 模式评估:根据某种规约度量,识别代表知识的最精确的模式。 (7) 知识表示:使用便于观察的展示界面,向用户提供最终挖掘信息。
共2页:
上一页
1
2
下一页
上一篇:
matlab汽车作动器的力跟踪控制
下一篇:
离散时间模糊系统的可靠控制器设计与仿真
基于Kinect手势识别的遥操...
基于51单片机自动门智能控制系统设计
基于TI-DSP平台的电力电子测控平台设计
基于传感器网络的分布式集员滤波问题的研究
基于飞思卡尔芯片LED色彩控制器的设计
基于磁共振技术的家用无...
水下遥控机器人ROV监控系...
浅谈新形势下妇产科护理...
多元化刑事简易程序构建探讨【9365字】
谷度酒庄消费者回访调查问卷表
国内外无刷直流电动机研究现状
辩护律师的作证义务和保...
中国古代秘书擅权的发展和恶变
《醉青春》导演作品阐述
浅谈传统人文精神茬大學...
拉力采集上位机软件开发任务书
高校网球场馆运营管理初探【1805字】