【原创】西部数据跟你聊聊数据存储的四大趋势

作者:张国斌

引子:我们为爱分享?

为什么我们每个人都喜欢在社交平台分享自己的信息?

有人说是因为分享让我们连接了世界;有人说分享不断让我们升级认知体系;也有人说分享让我们精神的自我实现;不过,依我看来,如果加上一个时间轴 ,再从更高层面来看,其实分享信息就是延续人类的文明!

看看这些创作于1万年前的阴山岩画,它们为我们栩栩如生地展示了当时的人类生活:狩猎,欢庆、生活……

【原创】西部数据跟你聊聊数据存储的四大趋势

也许这就是当时部落里的某个爱画画小子随手的分享,他肯定想不到,一万年以后这些随手的分享变成了我们研究人类起源探寻人类文明发展的证据!以此类推,其实我们现在的分享也在延续着当前的人类文明!

【原创】西部数据跟你聊聊数据存储的四大趋势

1977年9月5日发射的旅行者1号Voyager 1至今飞行了44年,带着人类太空探索的强烈好奇心,飞向深空,飞向不归路,如今它已经飞出了太阳系,它同样向整个宇宙分享了地球的信息--一张黄金唱片,录制了55种人类的语言问候录音以及各类音乐,并有我国的普通话、闽南语、粤语、吴语),以及一首叫《流水》的古筝曲目,

今天,得益于数字基础设施的发达,我们的分享变得日益方便,仅仅是随手一拍,我们的信息可以传递全球。

【原创】西部数据跟你聊聊数据存储的四大趋势

不过方便的社交分享也带来了一些问题,其中最突出的就是数据存储问题,因为除了我们的分享,人类每天还会产生大量数据,数据预测到2025年,全球每天将创建463EB的数据!!

【原创】西部数据跟你聊聊数据存储的四大趋势

图来源:Raconteur

这些每日主要的数据是(而这仅仅是统计了一些国际知名社交平台的数据 ,中国的社交平台数据并没有统计进去):

1、发送了5亿条推文

2、发送了2940亿封电子邮件,预计2021年要达到3200亿封电子邮件

3、在Facebook上创建了4 PB的数据,其中包含3.5亿的照片以及1亿小时的视频

4、每个连接的汽车都会创建4 TB的数据

5、在WhatsApp上发送了650亿条消息

6、进行了50亿次搜索

7、可穿戴设备产生28PB的数据

8、Instagram 分享了9500万个照片和视频

而且,随着各种设备接入互联网,我们正式进入了万物互联时代,据估计,未来将有90%的数据会由机器产生,而产生的数据量将在2023 年超过102个ZB。企业还要开始从IoT 等新来源收集传统数据流和新数据流,并要存储、管理、保护所有类型(结构化和非结构化)的数据,并从中发掘商业价值。

可以说,我们已经进入到数据驱动万物的时代,数据变得日益重要,企业能够利用海量、多维度的数据创造直接的业务增长,同时可以优化业务,提升运营效率。

随着数字经济时代来临,数据已经成为继土地、劳动力、资本、技术之后的第五种生产要素,2020年4月9日,国务院首次公布关于要素市场化配置的文件——《关于构建更加完善的要素市场化配置体制机制的意见》,指出土地、劳动力、资本、技术、数据五大生产要素的改革方向和相关体制机制的建设要求。

这是数据作为五大生产要素之一第一次被写入中央文件中。

这是因为,数据已经成为影响数字经济的关键因素,数据的应用已经从最早的收集、存储和查询为主,发展到开始重视数据的处理与分析。而数据的存储成为数据应用的基础,所有基于数据的挖掘和增值都离不开数据的存储。

现在,全球每年产生的数字数据正在以泽字节(简称ZB)计算,即万亿亿字节--相当于每秒传送数亿本书的数据。生成的数据量在继续以海量的形式增加,但每年全球仅有不到1.5%的数据被保存下来,如何有效应对挑战以更好地保存数据?让我们来看看西部数据是怎么看存储未来趋势的。

趋势1、数据分层存储应对挑战

【原创】西部数据跟你聊聊数据存储的四大趋势

西部数据公司副总裁兼中国区业务总经理刘钢

西部数据公司副总裁兼中国区业务总经理刘钢近日在2021深圳国际大数据与存储峰会暨展览会上指出,目前企业级存储面临的主要挑战是:数据增长迅速、更多的数据来源更多的容量需求挑战;存储性能需求倍增带来的更低延时、更高、更多带宽挑战;成本负担增加带来更低的管理维护成本挑战,以及更绿色能耗体系标准带来的更低存储成本挑战。

【原创】西部数据跟你聊聊数据存储的四大趋势

“总结来说就是用户既需要大容量、也需要快速访问、又需要低成本、还需要低功耗。其实你很难找到一个存储介质能够同时满足这四个方面的用户需求。但是当我们创新存储架构的时候,有可能从系统角度可以满足用户各方面、各种存储场景的需求。因为用户的数据是要进行分层的,用户数据也是有不同的类型,它对存储的要求也是不同的。”刘钢指出。“数据可以根据对时延和容量的要求分为五层,分别为极热数据、热数据、温数据、冷数据和极冷数据。对不同层的数据,要采用不一样的存储介质和存储的设备,这样才能够既拥有海量存储的大数据,也能对快数据进行快速访问。”

【原创】西部数据跟你聊聊数据存储的四大趋势

针对数据分层,可以用不同的存储介质来应对,例如DRAM应对极热存储,而高性能的SSD可以应对热存储,主流SSD和HDD可以应对温存储、CMR HDD可以应对冷存储,SMR HDD则可以应对极冷存储。

这样数据经过分层,就可以解决挑战满足存储需求了。

【原创】西部数据跟你聊聊数据存储的四大趋势

具体说来,针对不同存储需求,西部数据都有相应的产品,针对冷存储和极冷存储,通常采用高密度的大容量的企业级硬盘存储方案,目前已经进化到18TB的高密度企业级硬盘。针对极冷数据,他表示西部数据通过软件与技术优化,采用了SMR叠瓦式硬盘,已经可以实现业界最高容量--20TB高密度企业硬盘。

【原创】西部数据跟你聊聊数据存储的四大趋势

针对热存储、温存储、极热存储,有两类SSD,一类是主流的SSD,还有一类是针对写密集、计算密集的高性能SSD。在这方面,西部数据推出了Ultrastar DC SN640 NVMe SSD和Ultrastar DC SN840 NVMe SSD。

【原创】西部数据跟你聊聊数据存储的四大趋势

趋势2:HDD和SSD共存下去

刘钢指出2014年之前业界认为HDD会快速减少,SSD会快速上升,但2014年之后,产业界发现当云服务商的云存储开始大规模部署,大规模提供服务的时候,其对于大容量HDD的需求在快速增加。

【原创】西部数据跟你聊聊数据存储的四大趋势

从上图看,以HDD为代表的大数据将以30%左右年化增长率持续上升,到2024年预计将增长到1.62ZB,数据存储面临着前所未有的压力。除了大数据以外,以SSD为主要衡量标志的快数据在2024年预计将达到333EB,与HDD加在一起将近两个ZB。两者比较之下,SSD 50%的增长率远超HDD 30%的增长率。

【原创】西部数据跟你聊聊数据存储的四大趋势

“我们认为到2024年之前企业级硬盘都是大数据存储的主力。这是因为用户的数据是分层的,用户对成本和密度的要求会让用户需要大容量盘,在未来几年当中你会发现,在数据中心里面仍会大量以HDD为主。尤其是目前如此多的数据要存储,而我们每年只存储了产生数据的1.5%。另外还有90%多的数据要存储,都会存储在SSD上面呢还是HDD上面?我想可能是HDD多一些。”他指出,“我们西部数据会提供完整的存储解决方案,同时会有闪存技术,也会有领先大容量的硬盘技术。两个技术我们都会有,两个技术同时并行,可以满足不同场景的存储需求。”

【原创】西部数据跟你聊聊数据存储的四大趋势

他补充指出,2020年企业级HDD的主流容量点已经从14TB增长到16TB,而2021年的主流容量点已经从16TB开始往18TB移动,18TB的大容量企业级HDD将会在2021年成为主流需求。

而企业级SSD的增量背后则有两个趋势:一方面,NVMe接口的企业级SSD成为主流,市场占比越来越大;另一方面,则是Gen4开始出现,尽管2021年的占比当中大部分会是Gen3,但同时Gen4也开始部署,到2022年Gen4将会成为主流。

另外他指出,SSD如果断电太久会导致数据丢失,而HDD则可以长期保存数据,这也是它的优势之一。“HDD是一次记录,可以较长期保存,对于数据长期的灾备和保护,西部数据有分析算法,可以提前预判哪一个磁盘、哪一个磁头会出现故障。对SSD也是一样的,哪一个扇区会出现故障就对数据进行保护。”

趋势3:SSD向更多层数、纵向集成发展

从上图可以看出未来SSD年复合增长率很高,而决定SSD应用的主要因素是闪存(Flash)成本,刘钢表示SSD供应商需要有大规模的产能,这样能够保证供应,同时能够降低成本,此外还要有领先的Flash技术、有自主可控的控制器和部件来纵向优化SSD产品,从而才可以提供一致稳定的高性能SSD产品。

【原创】西部数据跟你聊聊数据存储的四大趋势

在这方面西部数据跟铠侠合资的工厂,有全世界最大的Flash产能——几乎占全世界Flash产能33%,此外,西部数据刚刚发布了第6代3D闪存技术——提供162层的3D闪存技术,会进一步地缩小芯片的尺寸,降低成本、提高性能。

【原创】西部数据跟你聊聊数据存储的四大趋势

“我们有自己的控制器和固件,和我们的flash纵向集成,可以达到非常稳定的一致性。有一家大型电商客户,他给出的要求是SSD的波动范围不能超过大约10%波动,而用我们产品测出来数据是0.11%!”他举例说,“他们用的就是这一款Ultrastar DC SN640 7.68TB NVMe SSD,不仅有高性能,最关键是有超级稳定的高性能,我们叫consistently amazing的性能。这个应用到封装服务器里面比较合适。”

趋势4、IPFS发展迅速不是泡沫

近几年,随着区块链技术的走热,一种有别于云存储的新形式存储——IPFS存储开始走热,其全称是InterPlanetary File System,译星际文件系统,这是一个旨在创建持久且分布式存储和共享文件的网络传输协议。该技术是一种内容可寻址的对等超媒体分发协议。它的出现,能让互联网的速度便捷、更安全、更开放。

IPFS的存储机制类似于共享模式应用,而IPFS的网络系统也正是基于这样的机制,让有闲置硬盘空间的人将其贡献出来,需要存储数据的人提供一定的奖励。以这样的方式把闲置的资源组合利用,从而让整个系统高效且去中心化的运行。

【原创】西部数据跟你聊聊数据存储的四大趋势

雅典娜云池CMO、冰河分布式存储实验室秘书长张晓航女士指出,IPFS在存储的隐私性、数据隐私性和安全性方面都是非常不错的,Google、Phoenix等些网络都在使用,它的经济模型类似现在的Airbnb,和目前中心化的酒店管理集团不一样的,它要构建一个去中心化的数据交易市场。“我们认为它是一个非常好的创新,是一个非常好的探索,并且它本身带来了经济效益,使得大家都愿意去以低成本方案去推进这个存储在商业应用方面的落地,在数据存储尤其是归档数据的存储的成本方面和传统存储来比的话,有非常大的优势。”她指出,“IPFS主网上线才半年不到,现在是四点几个EB了。这个发展速度是原来的传统存储所不可想象的。有人说它会不会是一个泡沫,我觉得我们常常有一个误区,觉得说好像谈泡沫色变。其实我觉得每一轮技术迭代的浪潮总是伴随着泡沫的,泡沫如果用好了的话,我觉得它是一个很好的助推器,去帮助技术的快速迭代,包括市场的快速应用。”

张晓航特别指出IPFS其实和HTTP一样只是一个底层协议,只不过它在数据存储的方式上会有一些区别。像IPFS,它是把文件加密打包之后,无限次去分割,分割存储在不同的节点上。用户在检索的时候生成了一个CID码,类似私钥一样,所以你拿CID直接去IPFS上面做检索,它会把加密的碎片重新组装,组装成一个完整的文件给到你。从安全性和隐私性上而言,比中心化的存储优势明显很多。

所以类似医疗健康、基因数据以及一些金融领域的票据,广电领域的影像数据都是属于对检索的要求没不高但必须有,这些数据就特别是很IPFS存储。

【原创】西部数据跟你聊聊数据存储的四大趋势

刘钢也表示IPFS弱化了中心化存储的极致需求,节省了服务提供成本。IPFS跟原来的云存储有很大不同,它可以会通过新的存储架构来降低成本。

【原创】西部数据跟你聊聊数据存储的四大趋势

“头部的云服务商的硬盘在过去4年当中,从8TB进化到了18TB。而IPFS的服务商则在以更快的速度进化,他们几乎用四个季度就走完了云服务商过去四年硬盘的演进过程,也从8TB进化到了18TB。为什么大容量硬盘今天会到18TB呢?当数据中心只是从14TB升级到18TB,很多IPFS公司,或者是云服务商已经在考虑从本季度开始迁移到18TB高密度。”刘钢指出,“西部数据赋能IPFS基础设施建设,可以提供针对性完整解决方案。”

【原创】西部数据跟你聊聊数据存储的四大趋势

【原创】西部数据跟你聊聊数据存储的四大趋势

他表示西部数据已经为多家合作伙伴提供了IPFS的解决方案。如星辰天合(XSKY)、浪潮、长城超云、杉岩数据等。跟从前的方案相比,西部数据的方案提高了性能、降低了成本。

【原创】西部数据跟你聊聊数据存储的四大趋势

【原创】西部数据跟你聊聊数据存储的四大趋势

【原创】西部数据跟你聊聊数据存储的四大趋势

在CITE2021上,西部数据就和和合作伙伴联合展示的IPFS解决方案。

【原创】西部数据跟你聊聊数据存储的四大趋势

【原创】西部数据跟你聊聊数据存储的四大趋势

“所以我们西部数据不只是提供存储技术和产品,而是跟我们合作伙伴一起提供完整的方案。”刘钢强调。

注:本文为原创文章,转载请注明作者及来源

最新文章