我们畅想一下未来,想象未来社会的样子。
未来社会每个人都与多台智能设备绑定,每个人如同一个数据提供商,不停地向网络上传送数据:自己的照片、爱好、欲望、踪迹等。而网络上这些数据也不停地得到反馈:周围的人(另一些数据提供商)给这些数据加赞、评论。
未来的总统大选是基于数据挖掘而建立的,所讲的每一句话都是数据挖掘的结果,数据挖掘就这样决定了未来政治的形态。
未来的娱乐也是数据挖掘的结果,只要你需要,一切都是数据挖掘自动生成的,包括电影、小说等,它们都是根据需要而生成的。人在按照需求改造外在世界的同时,由于对计算机的强烈依赖,人已经沉溺在一个计算机世界里,被计算机完全包围,计算机成为人的第二个大脑。
在这里,对其他人来说,每个人就是手机或者电视里的一个影像,这个影像是可以进行保存、复制、粘贴等各种数据加工的。
试看地铁上、餐馆里绝大多数的人是不是在低头看手机?
这是一种不可阻挡的趋势,这种趋势只会愈演愈烈。
不久的将来,这种趋势必将给社会伦理学、社会规范带来一场真正意义的革命,所有社会性的常识、规范都将重塑,包括社交、娱乐、休闲、购物、分享等群体交际的行为都将得到全新变革。这些群体性行为好像人这个“硬件”上面附属的操作系统一样,由于大数据时代的带来,将会被更换一套全新的操作系统,这套操作系统是由数据组成的。
我们能做什么呢?
我们能做的只有去适应。
数据挖掘就是能让未来生活更美好的唯一出路。在未来的社会,不管你想做成什么,归根到底都要求助于各种各样的数据处理。
以开餐馆为例。
在什么地方开餐馆取决于周围客流和周围人的饮食喜好等情况。
菜单的菜品取决于周围餐馆的差异化竞争和就餐人群的饮食喜好。
招聘服务员所给的工资取决于周围行业的工资。
对服务员的培训可参考KFC等企业的培训。
……
数据挖掘是一个如此重要的领域,但是,在目前的市场上,大部分书籍都是外国的翻译书籍,偶尔有国内的书籍,基本上也是纸上谈兵的泛泛之谈,书中所讲的技术和实现与目前企业界的技术与实现严重不符,技术人员获得的帮助有限。
本书是作者为了解决这个问题的一个尝试。本书以企业界的实际案例为主,力求揭示数据挖掘技术的本质,不拘泥于文字和名词。
一本参考书需要经过许多人的使用和反馈之后才能变得更加完善。由于本书作者的经验和时间有限,书中的错误和纰漏难免,敬请读者不吝指正。
贾双成 王奇