您的地位: 首页 > 技巧文档 > 搜集编程 > 数据同步算法研究
vs 2010 web安排 回到列表 25个最好最闪亮的Eclipse开辟项目
 数据同步算法研究

作者:刘爱贵 时间: 2010-08-12 文档类型:转载 来自:CSDN

第 1 页 数据同步算法研究 [1]
第 2 页 数据同步算法研究 [2]
第 3 页 数据同步算法研究 [3]
第 4 页 数据同步算法研究 [4]

1、引言

基于LAN或WAN的搜集应用之间停止数据传输或许同步异常广泛,比如长途数据镜像、备份、复制、同步,数据下载、上传、共享等等,最为简单的做法天然就是对数据停止完全复制。但是,数据在搜集上往复被复制屡次后就会存在大年夜量正本,很多情况下这些文件正本之间唯一很小的差别,很能够是从同一个文件版本演变而来。假设对文件停止完全复制,在文件较大年夜的情况下,会占用大年夜量搜集带宽,同步时间也会较长。

今朝,广域网WAN的带宽与拜访延迟依然是急需处理的成绩,完全复制使得很多搜集应用没法供给优胜的办事质量,比如分布式文件体系(DFS)、云存储(Cloud Storage)。Rsync与RDC(Remote Differential Compression)是两种最为罕见的数据同步算法,它们仅传输差别数据,从而节俭搜集带宽并进步效力。本文基于这两种算法思维并借助反双数据删除(De-duplication)技巧,对数据同步算法停止深刻研究与分析,并研发了原型体系。起首简介rsync与RDC算法,然后详细描述算法设计与照应的数据构造,偏重点分析文件分块、差别编码、文件同步算法,最后简介推拉两种应用形式。

2、相干任务

Rsync是类Unix情况下的一个高效的长途文件复制(同步)对象,它经过过程有名的Rsync算法来优化流程,增添了数据通信量并进步文件传输效力。假定如今有两台计算机Alpha和Beta ,计算机Alpha可以或许拜访A文件,计算机Beta可以或许拜访B文件,文件A和B异常类似,计算机Alpha和Beta经过过程低速搜集互联。它的大年夜致流程以下(详细过程请参考Rsync作者Andrew Tridgell的tech_report.ps):

1、Beta将文件B瓜分红持续不堆叠的固定大年夜小数据块S,最后一个数据块上能够会小于S字节;

2、Beta关于每个数据块,计算出两个校验值,一个32位的弱转动校验和一个128位的MD4校验;

3、Beta将校验值发送给Alpha;

4、Alpha经过过程搜刮文件A的一切大年夜小为S的数据块(偏移量可以随便任性,不用定非如果S的倍数),来寻觅与文件B的某一块有着雷同的弱校验码和强校验码的数据块。这重要由转动校验Rolling checksum快速完成;

5、Alpha给Beta发送重构A文件的指令,每条指令是一个文件B数据块援用(婚配)或许是文件A数据块(未婚配)。

Rsync是一个异常优良的对象,但它依然存在一些缺乏的地方。

1、Rolling checksum固然可以节俭大年夜量checksum校验计算量,也对checksum搜刮作了优化,但多出一倍以上的hash查找,这个消费不小;

2、Rsync算法中,Alpha和Beta计算量是纰谬等的,Alpha计算量异常大年夜,而Bete计算量异常小。平日Alpha是办事器,是以压力较大年夜;

3、Rsync中数据块大年夜小是固定的,对数据变更的适应才能无限。

RDC算法的典范代表是微软DFS中的DFSR(Distributed File System Replication),它与Rsync不合的地方在于采取分歧的分块规矩对复制的源文件和目标文件停止切分。是以,RDC关于源端和目标真个计算量是对等的。RDC和RSync算法在设重点上有所不合,Rsync寻求更高的反双数据发明而不吝计算量;RDC在二者之间作了一个调和,目标是以大批的计算快速发明数据差别,固然反双数据发明不及Rsync。别的,Rsync是定长分块战略,而RDC是变长分块战略。

3、反双数据删除技巧

De-duplication,即反双数据删除,它是一种异常新的且风行度很高的存储技巧,可以大年夜大年夜增添数据的数量。反双数据删除技巧,经过过程数据集中反复的数据,从而清除冗余数据。借助dedup技巧,可以进步存储体系的效力,有效节约本钱、增添传输过程当中的搜集带宽。同时它也是一种绿色存储技巧,能有效降低能耗。

Dedupe按照消重的粒度可以分为文件级和数据块级。文件级的dedup技巧也称为单一实例存储(SIS, Single Instance Store),数据块级的反双数据删除,其消重粒度更小,可以达到4-24KB之间。明显,数据块级的可以供给更高的数据消重率,是以今朝主流的 dedup产品都是数据块级的。将文件都瓜分红数据块(定长或变长的数据块),采取MD5或SHA1等Hash算法 (可以同时应用两种或以上hash算法或CRC校验等,以取得异常小概率的数据碰撞产生)为数据块计算指纹(FP, Fingerprint)。具有雷同FP指纹的数据块便可认为是雷同的数据块,存储体系中仅须要保存一份。如许,一个物理文件在存储体系就对应一个逻辑表示,由一组FP构成的元数据。当停止读取文件时,先读取逻辑文件,然后根据FP序列,从存储体系中取出照应数据块,复原物理文件正本。

出处:CSDN
义务编辑:bluehearts

上一页 下一页 数据同步算法研究 [2]

◎进入服装论坛t.vhao.net搜集编程版块参加评论辩论

热点搜刮:CSS Fireworks 设计比赛 网页制造 web标准 用户体验 UE photoshop Dreamweaver Studio8 Flash 手绘 CG
站点最新 站点最新列表
周大年夜福“敬•天然”设计大年夜赛开启
国际体验设计大年夜会7月将在京举办
中国国防科技信息中间标记征集
云计算若何让安然成绩可控
云计算是多半企业唯一拥抱互联网的机会
阿里行云
云手机年关巨献,送礼标配299起
阿里巴巴CTO王坚的"云和互联网不雅"
1499元买真八核 云OS双蛋大年夜促
首届COCO桌面手机主题设计大年夜赛
栏目最新 栏目最新列表
浅谈JavaScript编程说话的编码标准
如安在illustrator中绘制台历
Ps简单绘制一个心爱的铅笔图标
数据同步算法研究
用ps作简单的作品展示页面
CSS定位机制之一:浅显流
25个最好最闪亮的Eclipse开辟项目
Illustrator中制造针线缝制文字后果
Photoshop制造印刷凹凸字体
VS2010中创建自定义SQL Rule
>> 分页 首页 前页 后页 尾页 页次:1/41个记录/页 转到 页 共4个记录 分享按钮

蓝色幻想版权申明:除部分特别声明不要转载,或许授权我站独家播发的文章外,大年夜家可以自在转载我站点的原创文章,但原作者和来自我站的链接必须保存(非我站原创的,按照本来自一节,自行链接)。文章版权归我站和作者共有。

转载请求:转载之图片、文件,链接请不要盗链到本站,且不准打上各自站点的水印,亦不克不及抹去我站点水印。

特别留意:本站所供给的摄影照片,插画,设计作品,如需应用,请与原作者接洽,版权归原作者一切,文章如有侵犯作者版权,请与我们接洽,我们将急速删除修改。

您的评论
用户名:  口令:
解释:输入精确的用户名和暗码才能参与评论。假设您不是本站会员,你可以注册 为本站会员。
留意:文章中的链接、内容等须要修改的缺点,请用申报缺点,以利文档及时修改。
不评分 1 2 3 4 5
留意:请不要在评论中含与内容有关的告白链接,背者封ID
请您留意:
·不良评论请用申报管理员,以利管理员及时删除。
·尊敬网上品德,遵守中华人平易近共和国的各项有关司法律例
·承当一切因您的行动而直接或直接招致的平易近事或刑事司法义务
·本站评论管理人员有权保存或删除其管辖评论中的随便任性内容
·您在本站发表的作品,本站有权在网站内转载或援用
·参与本评论即注解您曾经浏览并接收上述条目
推荐文档 | 打印文档 | 评论文档 | 申报缺点  
专业书推荐 更多内容
网站可用性测试及优化指南
《写给大年夜家看的色彩书1》
《跟我去喷鼻港》
众妙之门—网站UI 设计之道
《Flex 4.0 RIA开辟宝典》
《赢在设计》
锋利开辟—jQuery内核详解与实际
作品集 更多内容

杂⑦杂⑧ Gold NORMANA V2