http://techshareme.org/jiezhi/1446/

澳门银河关注互联网产品管理,交流产品设计、用户体验心得!

在本页显示剩余内容免责声明:凡注明来源本网的所有作品

时间:2018-12-20 18:05 来源:未知 作者:admin

  大数据品种多,涵盖告终构化数据、非布局化数据以及对象数据,别离采用数据块接口、文件接口和对象接口进行拜候。目前的大大都企业还没有将三者同一路来,采用分歧的存储系统来办理这三类数据,在大数据快速增加的压力下,带来存储操纵效率低、办理复杂性高、成本不竭提拔、资本整合程度低等一系列问题。在这些要素驱动下,同一存储概念获得回复,SAN/NAS同一存储获得各大存储厂商推崇并接踵推出产物,对象存储也无望被一同整合到同一存储中。如斯一来,存储介质是什么就能够利用同一的存储来办理大数据,同一规划和整合伙本,提高存储资本操纵率,简化办理和降低总体成本。

  大数据存储系统具有成千上万块磁盘很常见,可能包罗FC、SAS、SATA磁盘,还有可能包罗SSD固态硬盘和磁带等存储介质。这么大数量的存储介质,每天坏上一两块盘的概率长短常的,不成节制的毛病发生会影响前端大数据使用。存储介质的利用年限都有尺度,能够基于此进行存储介质寿命办理,连系现实情况进行恰当调整,并按照存储介质运转形态进行阐发和毛病预测。当存储介质利用寿命即将达到,或者预测到毛病即将发生,则自动通知办理员对存储介质进行改换,之后有系统主动进行数据重建。如斯,能够无效降低存储介质发生毛病的随机性,加强毛病的可办理性,再连系报酬的安排,就可降低或者避免毛病发生对大数据使用的影响。

  在本页显示残剩内容免责声明:凡说明来历本网的所有作品,均为本网合法具有版权或有权力用的作品,接待转载,说明出处。非本网作品均来自互联网,转载目标在于传送更多消息,并不代表本网附和其概念和对其实在性担任。

  因为律例服从或持久存储的需要,数据按照生命周期办理需要进行归档处置,采用方式有磁带归档、磁盘归档、光盘归档、CAS系统归档等。大数据数据量大,若是采用磁盘介质进行归档,磁盘数量会良多,一般工作下能耗也是相当可观。为了降低能耗实现绿色归档,同时无效耽误磁盘利用寿命,需要考虑相关高效存储手艺,包罗MAID、SemiRAID、数据压缩、反复数据删除、主动精简设置装备摆设等。这些手艺次要从两个方面动手,一是精减数据量以削减磁盘介质达到降低能耗的方针,如数据压缩、反复数据删除、主动精简设置装备摆设,二是节制磁盘介质形态(高速、低速、遏制)或削减勾当磁盘数量来实现降低能耗和耽误寿命,如MAID和SemiRAID。SNIA相关组织特地研究绿色存储手艺,包罗提到的上述各类手艺。

  措辞的时候,肖刚的语速并不快,能够看得出,他很喜好反思和总结,话语中老是透漏着对过去工作的总结。[细致]

  数据拜候是存储系统最根基的功能之一。保守的数据拜候体例,都是按照文件名来定位和拜候数据。文件名标识具有必然的表意性,但很是不足,很难通过文件名对数据本身的内容和特征进行理解。这种查询拜候语义很是差,需要用户给出精确的文件名,不然就无法进行定位和拜候。跟着文件数量的不竭添加,它将给用户对数据的拜候带来很大的坚苦。现实世界中,人们次要按照事物的特征回忆和区分分歧的事物,而非简单的名字。在现实使用中,若是可以或许供给基于文件属性和内容的数据拜候体例,丰硕的语义将会极大地添加数据的表意性,从而大大便利用户的利用,提高数据拜候效率。Internet中,用户在Web搜刮引擎(如Google,Baidu)中输入内容环节字就能够查询到本人想要的数据。数据库系统中,利用SQL言语查询记实,能够指定相关前提对查询记实进行筛选。由此可见,与保守的数据拜候体例比拟,基于数据内容和属性的数据拜候体例具有很强的语义,能无效提高数据定位和拜候效率,能够很大程度上降低用户的利用复杂性,适合于各类数据存储系统,特别是分布式存储系统。目前,天然言语处置和WEB语义收集都有了长足的成长,大数据办理中若何能实现基于语义的数据拜候体例,不只能够提高了查询效率,并且合适人们的思维模式,可以或许供给愈加敌对的数据拜候界面。

  什么是大数据?IDC的权势巨子定义为:满足4V(Variety,Velocity,Volume,Value,即品种多、流量大、容量大、价值高)目标的数据称为大数据。IDC对大数据手艺的定位为:通过高速捕获、发觉和/或阐发,从大容量数据中获取价值的一种新的手艺架构。大数据次要涉及两个分歧的手艺范畴:一项努力于研发能够扩展至PB以至EB级此外大数据存储平台;另一项则是大数据阐发,关心在最短时间内处置大量分歧类型的数据集。这两个论题曾经被充实会商,这里不预备再作会商,而是换个角度思虑一下大数据,现实上可能与大数据存储平台更相关一点。这些需求或者思虑,或源自用户恍惚的需求,或源自存储同业的交换会商,还有一些源自存储实践中的感悟。

  消息作为现代企业的焦点资产,一旦发生数据损坏或丢失,小则带来分歧程度的经济丧失,大则关系企业保存。因而,此刻企业对主要数据备份都不得不高度注重。在大数据之前,企业需要备份的数据量凡是在GB级-数十TB级之间,上百TB的数据量的企业很是之少。这些数据往往都是Oracle/DB2/SQLServer等数据库的布局化数据,以及FTP/CIFS/NFS等文件共享办事的非布局化数据,目前诸如Symantec/Falcon/CommVault/EMC/Eisoo等公司的备份系统都能够很好地满足通俗的备份需求。然而当赶上大数据,它们能否仍然能够满足备份需求呢?大数据容量很容易达到数十TB级以上,数百TB以至PB级的案例也不再鲜见,并且这些数据品种多、流量大,都是新增数据。从备份手艺角度看,存储介质是什么全备份/增量备份/差别备份的备份窗口会很大,CDP的并发I/O捕捉和处置能力要超强,不然大量数据都来不及备份。从备份数据量看,备份所需要的存储空间至多出产数据量的一倍以上,这个成本是庞大的。还有重点的一点是,大数据凡是都是分布式采集、存储和处置的,实现同一的数据备份对备份系统是个手艺挑战。大概,大数据天然不合适采用备份手艺,而需要由存储系统本身的机制来处理,诸如多版本(multi-vesion)、写新地址(WriteAnyWhere,可实现天然的快照)等。

  消息有生命周期,金融/贸易/财政/通信/法令等良多数据都需要服从律例保留响应年限,一些主要的科学尝试数据和汗青材料以至要永世保留。大数据作为现代企业有主要价的资产,持久保留根基都是需要的,好比10-20年以至永世。持久存储,看似很简单的工作,现实上有良多问题需要处理。几百个TB或者PB级的大数据,假设长短勾当的汗青数据,采用什么介质进行存储?磁盘,磁带,仍是光盘?采用离线仍是近线体例?若何监控庞大数量存储硬件设备的形态?采用什么方式来包管海量数据的完整性?若何发觉持久存储中的问题并修复?需要的时候若何简洁快速地查询和获取数据?别的,还需要考虑存储所占用空间和能耗问题。面临这些问题,我们就会发觉大数据持久存储也是一个很大的挑战,一方面需要提高存储介质的持久性、智能性、靠得住性等,另一方面需要消息生命周期办理系统进行完美的办理和监控。

  关注 互联网的一些事 官方微信,回复" 1446 " 即可在微信里阅读本篇内容。

  在查找公众号中搜索:织梦58,或者扫描下方二维码快速关注。

围观: 9999次 | 责任编辑:admin

回到顶部
describe