读书频道 > 网站 > 网页设计 > 大数据:互联网大规模数据挖掘与分布式处理
1.3.7 习题
12-11-16    奋斗的小年轻
收藏    我要投稿   
本书由斯坦福大学的Web 挖掘课程的内容总结而成,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。其中相关章节有对应的习题...立即去当当网订购

习题1.3.1 假定一个由1000万篇文档组成的文档集,如果单词出现在(a) 40篇或(b)10 000篇文档中,那么它的IDF值是多少(给出最接近的整数值)?

习题1.3.2 假定一个由1000万篇文档组成的文档集,某个词w出现在其中的320篇文档中。且在一篇具体的文档d中,出现最多的词出现了15次,那么w出现(a) 1次或(b) 5次情况下的TF.IDF得分分别是多少?

!习题1.3.3 假定哈希键都来自某个常数c的所有非负整数倍,而哈希函数为h(x)= x mod 15,那么常数c取何值时,h是一个合适的哈希函数?也就是说,此时大量随机的哈希键选择能够近乎均匀地分到不同桶当中。

习题1.3.4 基于e的形式来近似表示下列数值。

(a) (1.01)500  (b) (1.05)1000  (c) (0.9)40

习题1.3.5 采用ex的泰勒展开公式计算下列表达式直到小数点后3位小数。

(a) e1/10      (b)e−1/10    (c) e2

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站