译者序作者简介前言第1章为什么会有大数据11 1什么是大数据11 2大数据技术背后的核心思想21 2 1把数据分发到多个节点21 2 2把计算逻辑移动到数据附近31 2 3计算节点进行本地数据处理31 2 4优选顺序读,次之随机读
Hadoop已经进入Apache社区发展五年多了,使用Hadoop系统进行开发的工作仍然富于挑战但收获丰厚。本书第1版在若干年前就已经出版了,在这期间,Hadoop系统已经被越来越多的企业使用,自身也得到了飞速发展。Hadoo
萨米尔·瓦德卡(Sameer Wadkar)在软件架构与开发方面有多达16年的工作经验。他在孟买大学取得了电子工程方向的硕士学位,及金融专业的MBA学位,在National Center of Software Technology(现为Center f
我们正处在一个数据量爆炸增长的时代,也是一个越来越依靠数据进行决策的时代,对海量数据的挖掘分析也从抽样数据分析变成了全量数据分析。为此,业界涌现出了许多新技术,Apache Hadoop是其中当之无愧的王者。
本书详细地讲述了Hadoop生态圈中最为重要的几个组件。不仅介绍了Hadoop涉及的分布式理论基础知识,还着重讲解Hadoop系统的工程实践应用。为了深入浅出地讲述Hadoop各个组件的运行机理,作者使用了贴切的实战用例
本节介绍在处理海量数据时常用的一些技巧。对海量数据进行分区操作。对海量数据进行分区操作十分有必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不过处理机制大体相同
hash技术在处理海量数据时使用非常广泛。比如在数据库中建立索引时,也可以选择建立hash化的索引。Bloom filter是hash技术的一种,由于其比较有特点,所以明白了Bloom filter技术,也就明白了hash技术的精髓。
所谓的分布式处理技术就是指MapReduce技术。这里的MapReduce技术无需使用Hadoop软件,而是指使用Hadoop中的MapReduce的技术思想。MapReduce的技术思想是将数据交给不同的机器去处理,先数据划分,之后结果归约。
适用范围:大数据的排序、去重。原理及要点:外排序的归并方法、置换选择+败者树原理、最优归并树。问题实例:有一个1GB大小的文件,里面每一行是一个词,词的大小不超过16个字节,内存限制大小是1MB。返回频数最
海量数据的特点如下:由于在海量数据中查找,效率会很低,所以需要好的数据结构以提升效率。这种数据结构往往是一种索引。数据量过大。数据中什么情况都可能存在。如果说有10条数据,那么大不了逐条检查,人工处
在信息大爆炸的今天,有了搜索引擎的帮助,使得我们能够快速、便捷地找到所寻求的数据。提到搜索引擎,就不得不说VSM模型(Vector Space Model,向量空间模型),说到VSM,就不得不提倒排索引。可以毫不夸张地
索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。1 数据库索引定义数据库索引好比是一本书前面的目录,能加快数据库的查询速度。数据库的索引一般是B树索引,结构
索引技术是加快海量数据处理的关键技术。索引技术可以分为结构化数据的索引技术和非结构化数据的索引技术。其中,结构化数据索引技术涉及数据库索引技术,而非结构化数据的索引技术以文本数据为例。所谓的索引就
海量数据处理技术是处理大数据的必备技巧。海量数据处理技术的核心是分布式计算,其中涉及数据索引技术、分布式处理技术和其他一些常用数据处理技术。
本小节以一元线性回归为例进行介绍。1 最小二乘法估计的思想关于参数β0、β1的估计必须依据某种准则。那么,依据什么样的准则得到的估计值比较好呢?假定我们获得了变量X和Y的一个容量为n的样本(xi,yi
所谓的回归就是一种对时间序列的离散数据的拟合,同拟合曲线要达到的效果相同,也使用最小二乘估计(Least Square Estimate,LSE),使得回归曲线(即拟合曲线)与离散数据的误差的平方和最小。之所以称为回归曲线
2 4 最小二乘法最小二乘法有两个主要用途:插值(即曲线拟合)和回归。回归线:从散点图上看,如果这些点从整体上看大致分布在通过散点图中心一条线附近,则这条线叫作这些数据点的回归线方程,如果是直线,可以
通过学习SVD(奇异值分解)的知识来明白矩阵计算的知识,这是一种很好的办法。SVD分解(奇异值分解)提供了将一个矩阵拆分成简单且有意义的几块的一种方法。SVD分解可以用于图像压缩、去噪,也是PCA(主成分分析
由于习惯的原因,我们把两组样本近似线性数据的距离称为相关系数。相关系数是衡量相似度的主要指标之一。相关系数属于数据挖掘最重要的概念之一。有两种重要的相关系数:夹角余弦(又称为皮尔逊积矩相关系数)和
距离是聚类的基础,是数据挖掘中最重要的概念之一,也是衡量相似度的主要指标之一。距离有很多种,各种距离的应用场景可以简单概括为:空间:欧氏距离。路径:曼哈顿距离。国际象棋国王:切比雪夫距离。欧氏距离、