读书频道 > 网站 > 网页设计 > 数据挖掘核心技术揭秘
3.2 海量数据处理技术
15-11-11    下载编辑
收藏    我要投稿   

本文所属图书 > 数据挖掘核心技术揭秘

本书包括五部分内容。第一部分(第1~3章)涉及数据挖掘技术的基础知识,介绍数据挖掘的定义、数据挖掘工具及应用领域,数据挖掘的数学基础内容,以及海量数据挖掘处理技术。第二部分(第4~5章)分别从聚类技术立即去当当网订购

海量数据的特点如下:

由于在海量数据中查找,效率会很低,所以需要好的数据结构以提升效率。这种数据结构往往是一种索引。

数据量过大。数据中什么情况都可能存在。如果说有10条数据,那么大不了逐条检查,人工处理;如果有上百条数据,也可以考虑人工处理;如果数据上到千万级别,甚至过亿,那就不是手工能解决的了,必须通过工具或者程序进行处理。而海量数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止。

软硬件要求高。系统资源占用率高。对海量数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据超过TB级,可以考虑小型机,如果普通的服务器有好的方法也可以考虑,不过也必须加大CPU和内存。

海量数据处理的常用技术可以分为:

外排序(因为海量数据无法全部装入内存,所以在数据的大部分需要存储在硬盘里,小部分在排序需要时调入内存)。

MapReduce技术(分布式处理技术)。

hash技术(以Bloom filter技术为代表)。

一些其他的常用技巧。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站