一种最有趣的数据汇总形式是PageRank,它也是使谷歌成功的关键算法之一,我们将在第5章对它进行详细介绍。在这种形式的Web挖掘当中,Web的整个复杂结构可由每个页面所对应的一个数字归纳而成。这种数字就是网页的
近年来,计算机科学家已将数据挖掘看成一个算法问题。这种情况下,数据模型仅仅就是复杂查询的答案。例如,给定例1 1中的一系列数字,我们可以计算它们的均值和标准差。需要注意的是,这样计算出的参数可能并不是
有些人将数据挖掘看成是机器学习的同义词。毫无疑问,一些数据挖掘方法中适当使用了机器学习算法。机器学习的实践者将数据当成训练集来训练某类算法,比如贝叶斯网络、支持向量机、决策树、隐马尔可夫模型等。某
1 1 数据挖掘的定义最广为接受的定义是,数据挖掘(datamining)是数据模型的发现过程。而模型却可以有多种含义。下面介绍在建模方面最重要的几个方向。1 1 1 统计建模最早使用datamining术语的人是统计学家。
本章为全书的导论部分,首先阐述数据挖掘的本质,并讨论其在多个相关学科中的不同理解。接着介绍邦弗朗尼原理(Bonferroni’sprinciple),该原理实际上对数据挖掘的过度使用提出了警告。本章还概述了一些非
第1章 数据挖掘基本概念 11 1 数据挖掘的定义 11 1 1 统计建模 11 1 2 机器学习 11 1 3 建模的计算方法 21 1 4 数据汇总 21 1 5 特征抽取 31 2 数据挖掘的统计限制 41 2 1 整体
本书根据Anand Rajaraman和Jeff Ullman于斯坦福大学教授多年的一门季度课程的材料汇编而成。该课程名为Web挖掘(编号CS345A),尽管它已经成为高年级本科生能接受并感兴趣的课程之一,但其原本是一门为高年级研
编辑推荐:本书源自作者在斯坦福大学教授的海量数据挖掘(CS246: Mining Massive Datasets)课程,第1版上市以来受到读者广泛欢迎和认可。这个新版本在上一版基础上新增三章内容,分别涵盖社会网络图挖掘、降
很高兴本书的第2版能和读者见面,和第1版相比,这一版增加了第10、11、12章。第10章介绍了近年来十分流行的社会网络分析技术,第11章对高维数据空间的降维技术进行了阐述,第12章则介绍了大规模数据下的机器学习
1 画出图2?36中所示比特模式的NRZ、曼彻斯特和NRZI编码。假设NRZI信号从低电平开始。2 给出比特序列1110 0101 0000 0011的4B 5B编码,以及得到的NRZI信号。3 给出比特序列1101 1110 1010 1101 1011 111
本章介绍了各种各样的链路,它们可以将用户连接到现有的网络,并构造大规模网络。然而这些链路之间有着巨大的差异,存在许多问题和技术需要解决。有五个关键问题必须被解决,以便相互连接的两个或多个节点能够彼
蜂窝电话技术起源于声音通信,基于蜂窝标准的数据服务正在变得越来越流行(这得益于移动电话和智能手机(smartphone)的快速增长)。其缺点之一是用户的使用成本高,某些原因是蜂窝使用许可的频谱(在若干年前被
蓝牙技术填充了移动电话、PDA、笔记本电脑以及其他个人或外围设备之间的短距离通信的缝隙。例如,蓝牙技术可用于连接移动电话和耳机,笔记本电脑和耳机。概略地讲,蓝牙是利用电线连接两个设备的一种更为方便的替
大部分读者都使用过基于IEEE 802 11标准的无线网络,通常称为Wi-Fi(类比于Hi-Fi(High Fidelity,高保真),Wi-Fi是意为无线保真,还是仅为一个除802 11外别无所指的好记的名字,对此人们尚存争议。) 。Wi?Fi在
无线网络技术在很多方面与有线网络不同,但也有许多共同的特性。在无线链路中,比特差错是必须要关注的,因为大部分无线链路都无法避免噪声环境。在无线网络中组帧和可靠性也必须要考虑。与有线网络不同,因为使
由于以太网已存在很多年而且很流行,因此积累了大量的以太网使用经验。最重要的观测结果之一是以太网在轻载情况下工作很好。这是因为在重载下(在以太网上,通常超过30%的利用率就被认为是重载),冲突使网络能力
现在把注意力转向控制访问共享以太网链路的算法,这种算法一般称为以太网的介质访问控制(Media Access Control,MAC),通常在网络适配器上以硬件方式实现。我们并不描述硬件本身,而是考虑它实现的算法。下面
以太网段是在长度最高可达500m的同轴电缆上实现的(现在的以太网使用双绞线,通常使用5类线或光纤,有时一个网段的长度可超过500m)。这个电缆类似于有线电视所用的电缆类型。主机通过分接头连接到以太网段上。收
毫无疑问,以太网是最近20年中最成功的局域网技术。它是20世纪70年代中期由施乐公司的帕洛阿尔托研究中心(PARC)开发的。以太网是一个正在使用的、更通用的带冲突检测的载波监听多路访问(CSMA CD)局域网技术的
用在ARPANET网中的数据链路协议为滑动窗口协议提供了一种有趣的变换,虽然它仍采用简单的停止等待算法,但它能保持管道满载。这种方法的一个重要结果是,在一个给定链路上传输的帧并不保持任何特定的顺序,该协议