科技网

当前位置: 首页 >VR

憑空多出80的磁盤空間減少80的帶寬占用

VR
来源: 作者: 2019-05-22 16:29:57

在數字化轉型的背景下,數據量正呈現出爆炸式增長的態勢。而傳統數據壓縮架構存在計算資源需求高,CPU的負載率高,緊縮任務吞吐量不足等問題,浪潮FPGA方案對GZip算法進行了專門的開發和優化,壓縮率能夠達到94.8%,壓縮速度達到1.6GB/s,十倍于傳統方法的計算效率。

浪潮FPGA方案,节省80%磁盘空间和络流量

举个现实的例子,我们每年最大的“剁手节”——双11当天所产生的交易日志就达到了PB级别,而这仅仅是1天、1个站搜索产生的数据。

那这些数据对数据中心而言意味着甚么?1天内不但多了至少1PB的数据需要存储,并且又有至少1PB络流量被占用。依照1块盘8TB的容量来算,需要124块硬盘,按照1台服务器12块盘来算,需要最少12台服务器来存储这些日志。同时,在双十一后,这些数据仍需要被存储一段时间用于后续的大数据分析,这期间日志文件会被各个计算机群频繁的访问读取,不但长时间占用大量存储空间,也会加重数据中心内外部络负担。

数据量爆发式增长

那末有没有甚么方法压缩这些数据?类似我们在电脑上用WinRAR或者其他压缩工具把文件压缩为zip、rar,数据中心的海量数据是否也能被紧缩。

数据压缩,用计算能力换取更多存储空间

目前,业界常用的压缩算法有基于UNIX系统的文件紧缩GZip、高储存密度的计算机文件紧缩Zip、无损压缩软件BZIP2等,其中GZip由于具有较好的压缩比、紧缩效力和平台通用性,因此被广泛的应用。

GZip文件压缩

但传统的压缩程序基于CPU,会存在一些问题。比如,压缩任务所需要的计算资源较高,在进行大文件或多文件紧缩任务时,会致使CPU的负载率高,影响其他任务的正常运转。另外,如果紧缩任务要求频繁,比如站文件的GZip压缩,站的同时访问人数就基本等同于压缩任务数,这时候CPU的单核性能高但并行能力弱的特性会导致压缩任务吞吐量不足。

因此,针对数据中心海量数据压缩,用计算能力换取更多存储空间是必定趋势。比如数据文件中存在很多重复出现的字符串,如果用更短的符号代替,就能达到缩短字符串的目的。例如,有个文本中大量使用“整机柜服务器”这个词,我们用"整机柜"代替,就缩短了3个字符,如果用"整"代替,就缩短了5个字符。事实上,只要保证对应关系,可以用任意字符代替那些重复出现的字符串。并且这一过程是无损的、可逆的。

邓超称刚入行时有点装现在心中小贱人由我调TFboys被封杀或因曲风太成熟网友太年你好对方辩友热播欲打造95后张翰郑爽

春夏甜蜜搭配 冰沙色搭配如梦如幻!
女性日常美肤应该少吃的食物
不动产登记制度6月底前或出台 能否撼动高房价仍难料

相关推荐