除了上述基本的统计特征外,Pandas还提供了一些非常方便实用的计算统计特征的函数,主要有累积计算(cum)和滚动计算(pd rolling_),见表3-8和表3-9。其中,cum系列函数是作为DataFrame或Series对象的方法而出
3 3 Python主要数据探索函数Python中用于数据探索的库主要是Pandas(数据分析)和Matplotlib(数据可视化)。其中,Pandas提供了大量的与数据探索相关的函数,这些数据探索函数可大致分为统计特征函数与统计作图
分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。1 直接绘制散点图判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图,如图3-11所示。2 绘制散点图矩阵需要
贡献度分析又称帕累托分析,它的原理是帕累托法则,又称20 80定律。同样的投入放在不同的地方会产生不同的效益。例如,对一个公司来讲,80%的利润常常来自于20%最畅销的产品,而其他80%的产品只产生了20%的利润。
周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期趋势,相对较短的有月度周期性趋势、周度周期性趋势,甚至更短的天、小时周期性
用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反映变异程度的指标则是对个体离开平均水平的度量,使用较广
对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。在对比分析中,选择合
3 2 数据特征分析对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。3 2 1 分布分析分布分析能揭示数据的分布特征和分布类型。对于定量数据,欲了解其分布形式是对称的
数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。在数据挖掘过程中,不一致数据的产生主要发生在数据集成的过程中,这可能是由于被挖掘数据是来自于从
异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响;重视异常值的出现,分析其产生的原因,常常
数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确,以下从缺失值产生的原因及影响等方面展开分析。(1)缺失值产生的原因1)有些信息暂时无法获取,或者获取信息的代价太
数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。数据质量分析的主要任务是检查原始数据中
根据观测、调查收集到初步的样本数据集后,接下来要考虑的问题是:样本数据集的数量和质量是否满足模型构建的要求?是否出现从未设想过的数据状态?其中有没有什么明显的规律和趋势?各因素之间有什么样的关联性
本章主要对Python进行简单介绍,包括软件安装、使用入门及相关注意事项和Python数据分析及挖掘相关工具箱。由于Python包含多个领域的扩展库,而且扩展库的功能也相当丰富,本章只介绍与数据分析及数据挖掘相关的
本书提供的下载资源按照章节组织,在资源的目录中会有chapter2、chapter3、chapter4等章节。在原理篇章节中其章节目录下只包含demo文件夹(示例程序文件夹),包含3个子目录:code、data和tmp。其中,code为章节
在Gensim的官网中,它对自己的简介只有一句话:topic modelling for humans!Gensim是用来处理语言方面的任务,如文本相似度计算、LDA、Word2Vec等,这些领域的任务往往需要比较多的背景知识,通常的情况是:研
虽然Scikit-Learn足够强大,但是它并没有包含一种强大的模型—人工神经网络。人工神经网络是功能相当强大的、但是原理又相当简单的模型,在语言处理、图像识别等领域有着重要的作用。近年来逐渐火起来的深度学习
从该库的名字可以看出,这是一个机器学习相关的库。不错,Scikit-Learn是Python下强大的机器学习工具包,它提供了完善的机器学习工具箱,包括数据预处理、分类、回归、聚类、预测和模型分析等。Scikit-Learn依赖
Pandas着眼于数据的读取、处理和探索,而StatsModels则更加注重数据的统计建模分析,它使得Python有了R语言的味道。StatsModels支持与Pandas进行数据交互,因此,它与Pandas结合,成为了Python下强大的数据挖掘组
终于谈到本书的主力工具—Pandas了。Pandas是Python下最强大的数据分析和探索工具(貌似没有之一)。它包含高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单。Pandas构建在NumPy之上,它使得以