频道栏目
读书频道 > 数据库 > 其他综合 > Python数据分析与挖掘实战
1.4.2 数据取样
2015-12-11 13:33:07     我来说两句
收藏   我要投稿

本文所属图书 > Python数据分析与挖掘实战

本书共15章,分两篇:基础篇和实战篇。基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得数据挖掘项目经验,同时快速领悟看似难懂的  立即去当当网订购

在明确了需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部企业数据。通过对数据样本的精选,不仅能减少数据处理量,节省系统资源,还可以使我们想要寻找的规律性更加凸显出来。

进行数据取样,一定要严把质量关。在任何时候都不能忽视数据的质量,即使是从一个数据仓库中进行数据取样,也不要忘记检查其质量。因为数据挖掘是要探索企业运作的内在规律性,原始数据有误,就很难从中探索规律性。若真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可能会造成误导。若从正在运行的系统中进行数据取样,更要注意数据的完整性和有效性。

衡量取样数据质量的标准如下。

1)资料完整无缺,各类指标项齐全。

2)数据准确无误,反映的都是正常(而不是异常)状态下的水平。

对获取的数据,可再从中进行抽样操作。抽样的方式是多种多样的,常见的方式如下。

随机抽样:在采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽样的概率。如按10%的比例对一个数据集进行随机抽样,则每一组观测值都有10%的机会被取到。

等距抽样:如按5%的比例对一个有100组观测值的数据集进行等距抽样,则有100 / 5=20,等距抽样方式是取第20、40、60、80和第100这5组观测值。

分层抽样:在这种抽样操作时,首先将样本总体分成若干层次(或者说分成若干个子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可设定不同的概率。这样的抽样结果通常具有更好的代表性,进而使模型具有更好的拟合精度。

从起始顺序抽样:这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者直接给定选取观测值的组数。

分类抽样:在前述几种抽样方式中,并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集,如按客户名称分类、按地址区域分类等。分类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。

基于上节定义的针对餐饮行业的挖掘目标,需从客户关系管理系统、前厅管理系统、后厨管理系统、财务管理系统和物资管理系统中抽取用于建模和分析的餐饮数据,主要内容如下。

1)餐饮企业信息:名称、位置、规模、联系方式,以及部门、人员、角色等。

2)餐饮客户信息:姓名、联系方式、消费时间、消费金额等。

3)餐饮企业菜品信息:菜品名称、菜品单价、菜品成本、所属部门等。

4)菜品销量数据:菜品名称、销售日期、销售金额、销售份数。

5)原材料供应商资料及商品数据:供应商姓名、联系方式、商品名称、客户评价信息。

6)促销活动数据:促销日期、促销内容、促销描述。

7)外部数据,如天气、节假日、竞争对手以及周边商业氛围等。

您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.4.1 定义挖掘目标
下一篇:1.4.3 数据探索
相关文章
图文推荐
排行
热门
最新书评
特别推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站