工控网首页
>

应用设计

>

大数据存储的7个关键性因素

大数据存储的7个关键性因素

2018/5/24 14:24:57

大数据的应用为企业的存储带来了挑战。以下是企业应该考虑的最重要的事情。

可以说,企业在制定大数据存储计划时需要考虑很多事情。以下更详细地了解一下其中的一些因素。

(1)确定大数据存储需求

一旦创建了大数据存储的要求,就要考虑减少大数据的方式。大部分数据在一两天后都是垃圾数据,这取决于积极的报废协议。有些数据是具有价值的,所以这些数据应该存储和加密、备份,以及存档。

随着需求日益增长,公共云非常适合存储短期数据,特别是在突发情况下。存储桶能够以更低成本进行创建和删除,而且扩大规模并不是问题。

最后,大数据有时并没有那么大。对于使用10TB结构化数据的用户来说,100TB似乎很大,但是它很容易适合于最小的Ceph集群。而如今存储100TB的数据,这对于一些解决方案来说非常简单。

(2)对象存储的作用

大数据常常与对象存储混淆,因为对象存储可以轻松地处理奇怪的对象,并提供允许对数据进行巨大控制的元数据结构。而且对象存储的成本比传统的RAID存储阵列要低得多。事实上,最常见的对象存储使用开源软件和COTS(商用现成品或技术)硬件。也可以使用没有捆绑许可的软件。

对象存储设备配有6到12个驱动器,服务器主板和快速网络,而且越来越多的网络将采用基于RDMA的100GbE或200GbE网卡。即便如此,硬盘驱动器的速度变得如此之快,以至于这些网络速率仍然难以跟上。现在人们处在对象存储的NVMe以太网连接的边缘,这将带来延迟和吞吐量的飞跃。

还有开源的全球文件系统,这些系统已经在金融系统和高性能计算中使用了很多年。这些处理需要一定的规模,但没有扩展的元数据和其他灵活的扩展。

(3)生命周期管理

从大数据存储池获取数据是一个比设置池本身更大的挑战。在企业的存储软件中构建报废标签是管理它的一种方法:策略在数据对象创建时设置自毁标签值。然而,制定策略需要时间,而且在处理选项增加到包括将数据移动到云中成本非常低廉的归档层时,情况会变得更加复杂。大数据的数据流模型,特别是物联网产生的大数据,往往在存储营销信息图中被描述成“许多支流汇合在一起的一条大河”。然而,从存储的角度来看,所有这些组合起来并不是真正的传感器数据(IoT生成的典型内容)可能会被分解为时间戳,以便后期处理,而结构化数据库条目可以直接存储在主数据库中,它有自己的分层冷数据工具。

更复杂的是,人们知道一些大数据比其他数据更为活跃。这种活跃的数据可能需要存储到更快速的存储设备中,例如SSD固态硬盘。

(4)数据隐私法规

通用数据保护规范(GDPR)将要实施。企业在处理欧盟个人数据的过程中如果违反法规,则可能会面临其全球收入的4%的严厉处罚,这个法规适用于全球范围的企业。

通用数据保护规范(GDPR)最终处理的是关键和个人数据的常识。每个人都应该正确地加密数据。其规则涵盖数据治理,生命周期管理,访问和使用以及加密。

在了解存储供应商是否符合GDRP标准之后,人们可能会松一口气,认为可能与自己无关。但这些规则涉及到数据所有者以及任何数据存储的重大范式转变,如果企业还没有经历这个调整过程,那么很可能就不符合法规。

人们一个常见的误解是,供应商提供的加密措施可以解决企业的合规性要求。其实无论是由存储厂商还是云服务提供商所提供的基于驱动器的加密都不适用于任何数据标准,如HIPAA,SOX或GDPR。企业作为数据所有者必须拥有密钥。幸运的是,云端有加密支持,但更好的选择是将其构建到服务器或虚拟机中的工作流中。

(5)SSD固态硬盘

SSD固态硬盘正在改变存储系统中的所有规则。作为处于DRAM和硬盘存储器之间的具有高速缓存的大容量存储设备,SSD硬盘在随机IO中的存储性能提高了约1000倍,带宽从10倍增加到100倍。对于大量数据来说,这是非常重要的,特别是在使用Hadoop或GPU加速等并行处理时。

容量为100TB的固态硬盘将会推出市场,并具有优异的性能,一些小型存储设备可以创造奇迹。规模最小的Ceph对象存储阵列为四个节点,即使使用标准的1U服务器格式,当前也可以容纳1.2PB的SSD硬盘容量。这样做成本高昂,但在计算性能时比较经济。一些供应商已经宣布了1UPB级设备的计划,其中包括使用32个英特尔公司推出的Ruler硬盘,这是一款狭长的的SSD硬盘。

固态存储领域得到快速发展,这也是企业不应该在短期内在存储方面投入太多费用的原因。因为硬盘价格点和所有其他指标在未来两年内都会发生变化。企业需要确保将来购买的任何设备和驱动器都适合集群,以便其他有用的设备不会被废弃。

(6)数据压缩

如今,存储1PB数据的设备可以存储5PB数据,而这是使用压缩软件的好处。固态硬盘支持大带宽,以至于使用其中的一些将压缩数据写入设备是有意义的。不过,最好是在数据创建时进行压缩。这减少了整个数据流量的网络流量,节省了存储空间,并减少了传输时间。但源数据压缩需要硬件支持,而这些硬盘开始出现在市场上。

"Rehydrating"(重新水化)数据是一个使用少量资源的简单过程,因此通过提高压缩率来增加存储容量可以节省成本。全闪存阵列通常包括压缩,而这种技术也作为用于家电的软件提供。

(7)选择云存储服务

在讨论硬件之后,采用云存储提供商提供的服务可能是一个具有吸引力的选择。事实上,云服务提供商三大巨头亚马逊、谷歌和微软公司在实施新架构和软件编排方面都处于行业领先地位。云计算的应用很经济,并且可以随时需要的规模支付费用。云服务可以处理存储负载峰值,这在一些数据类中很常见,例如零售传感器数据。这减少或至少延迟了仓储设备的内部购买。

然而,获得与内部运营相媲美的性能水平是一个挑战。并不是具有相同CPU和内存组合的实例都是相同的。一个高度调优的内部集群可能会做得更好。

如今,存储技术的发展并不会停止,人们将看到增值数据存储服务迅速发展,如加密和压缩、索引、标签服务以及其他功能。大型云提供商(尤其是AWS)甚至将数据库结构(如Hadoop文件系统)构建到工具包中。这使他们能够部署类似希捷和华为设备的关键/数据存储驱动器等设备中,以加速构建特定的数据结构。

审核编辑(
王静
)
投诉建议

提交

查看更多评论
其他资讯

查看更多

车规MOSFET技术确保功率开关管的可靠性和强电流处理能力

未来十年, 化工企业应如何提高资源效率及减少运营中的碳足迹?

2023年制造业“开门红”,抢滩大湾区市场锁定DMP工博会

2023钢铁展洽会4月全新起航 将在日照触发更多商机

物联之星五大榜单揭榜!中国物联网Top100企业名单都有谁-IOTE 物联网展