数据产生与信息爆炸的挑战
为了更清晰的认识我们所生存的环境,提高相互之间更沟通的效率,人们收集和创造了大量的数据,有些是对物理世界的客观描述,如原子和分子的组成,或是DNA螺旋的结构;也包括烟波浩渺的宇宙中的星系和星云;亦或是人类对自身历史的记录;还有一些数据被用于人们相互沟通,如Facebook上每天新增数十亿条内容,或数每天被发送的数千亿封邮件。
据IDC统计报告预计,2009年到2020年,全球信息总量增长44倍以上,将达到35.2ZB(1ZB=1,000,000PB),如此大规模的数据给存储系统带来了巨大的挑战,人类将如何应对咆哮而来的数据洪流?
存储方案的演进
在人脑数据处理时代,数据处理由人类大脑完成,由于大脑存储容量相对比较有限,仍然有大量数据被存储在图书馆。当有需要的时候,人们便会到图书馆获取更多的数据。
20世纪电子与信息技术迅速发展,机器计算迅速普及, 冯·诺依曼提出了存储程序逻辑架构,即现有的计算机都遵循的“冯 诺依曼体系架构”。但冯诺依曼体系架构没有考虑并行计算和数据共享情形,在如今的网络时代,大量计算设备通过网络形成一个庞大的,相互独立而又统一的计算系统,因此我们可以总结出一个数据存储的通用模型,这个模型包括两级存储,其存储容量差距约1000倍:

信息爆炸时代的超级数字图书馆-分布式对象存储
SAN和NAS技术已经出现了10多年,目前单台SAN或NAS最大容量已经做到PB级别,但在应对EB级数据挑战时,还是显得有些力不从心。这主要由于其架构和服务接口决定的。
传统的RAID和Scale-up的结构也阻止了EB规模可用的存储系统诞生,传统的RAID基于硬盘,通常一个RAID组最多包含20+块硬盘,难以支持EB级存储规模,同时Scale-up这种结构也决定了即使达到EB级存储容量,性能也将成为真个系统的短板。
我们再次回到人脑计算模型,在信息时代的今天,我们设想能否有一种“数字图书馆”,它可以共享大量的数据给很多人(服务器/服务器集群),提供超大的存储容量千倍于当前的高速(SAN和NAS)存储,人们(应用)访问数据的时候也不需要知道图书馆怎么对这些书,只需要指定一些关键信息(如书名称,出版社,作者)就可以获取到这本书里面的数据。如果书变得老旧残破,书中已经/快要烂掉的几页内容被这个“数字图书馆”自动的抄写到其他纸张上面,并重新装订这本书。而对于作为数据使用者的人们根本无需知道图书馆自动完成的这一切,只是根据需要去获取数据资源?




