读书频道 > 数据库 > 其他综合 > 数据挖掘核心技术揭秘
3.2.1 外排序
2015-11-11 14:16:19     我来说两句 
收藏    我要投稿   

本文所属图书 > 数据挖掘核心技术揭秘

本书包括五部分内容。第一部分(第1~3章)涉及数据挖掘技术的基础知识,介绍数据挖掘的定义、数据挖掘工具及应用领域,数据挖掘的数学基础内容,以及海量数据挖掘处理技术。第二部分(第4~5章)分别从聚类技术  立即去当当网订购

适用范围:大数据的排序、去重。

原理及要点:外排序的归并方法、置换选择+败者树原理、最优归并树。

问题实例:有一个1GB大小的文件,里面每一行是一个词,词的大小不超过16个字节,内存限制大小是1MB。返回频数最高的100个词。

这个数据具有很明显的特点,词的大小为16个字节,但是内存只有1MB,做hash有些不够,所以可以用来排序。内存可以用作途输入缓冲区。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:3.2 海量数据处理技术
下一篇:3.2.2 分布式处理
相关文章
图文推荐
3.3.2 拓展统计特征
3.3.1 基本统计特征
3.2.6 相关性分析
3.2.5 贡献度分析
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站