上文中的例子我们作了诸多假设,要表明的核心问题是虽然我们可以很快地处理数据,但是从持久性的存储设备中读取的速度受到限制,这是整个数据处理流程上的关键瓶颈所在。相对于读写本地节点存储设备上的数据,通过网络来传输数据会更慢。
下面列出了所有大数据处理方法中的一些共同特征:
数据分布在多个节点(网络I/O速度<<本地磁盘I/O速度)。
计算程序离数据更近(集群上的节点),而不是相反。
数据的处理尽量在本地完成(网络I/O速度<<本地磁盘I/O速度)。
使用可顺序读取磁盘I/O代替随机读取磁盘I/O(数据交换速度<<数据寻道时间)。
所有大数据计算处理模式都有一个目的,就是使输入/输出(I/O)并行化,从而提高数据处理性能。