NEWS

现实世界中的备份问题以及如何解决这些问题. 2019-09-04


数据备份和恢复有点像黑盒。在灾难发生之前,人们通常不知道其措施是否完善,并且总是有改进的空间,特别是随着云计算和混合选项的应用日益广泛。在此,网络领域的四位专业人士对是什么让他们意识到应该采取更多措施来加强组织的备份和恢复流程,以及如何实现这一目标进行了分享和阐述。

 
匹兹堡州立大学(PSU)改进磁带备份的存储方式
 
突发事件:2011年5月,一场龙卷风袭击了密苏里州乔普林市,而附近城镇的消防队长Tim Pearson则被要求进行救援。Pearson 说,“突然之间,我来到了一个我以前比较熟悉的小镇,但当时却差点认不出来。后来我们在街道十字路口标出原有的名字,以帮助人们确定方向。”如今,他已经成为堪萨斯州匹兹堡州立大学的基础设施和安全主管。
 
他和匹兹堡州立大学数据中心的同事们正在努力确保数据中心正常运行。在工作中,他意识到,匹兹堡州立大学(PSU)采用传统的磁带备份方法存储数据,每周更新一次,但并没有为应对该地区恶劣天气模式提供足够的可靠性。“我们不得不重新审视我们的漏洞。”他说。
 
地理多样性
 
解决方案:最初,Pearson和他的团队通过在该数据中心对面的图书馆的地下室部署一台Dell Equalogic存储阵列来解决该大学磁带存储的地理脆弱性。该团队还在威奇塔州立大学(WSU)添加了戴尔MD3200存储阵列,匹兹堡州立大学(PSU)通过堪萨斯市的研究和教育网络连接到该阵列。每天的数据通过人工多次复制到辅助站点中。数据备份每晚发送到威奇塔州立大学(WSU),从而消除了现有的繁琐的磁带处理过程。
 
Pearson说,“从存储库中检索的磁带可能需要一周时间才能恢复。而从遭遇灾难的主要站点或辅助站点取出的磁带来恢复数据变得更加困难。”
 
虽然辅助站点和威奇塔州立大学(WSU)存储阵列运行良好,但匹兹堡州立大学(PSU)团队决定进一步改进备份和恢复,在Hedvig公司的分布式存储平台(软件定义存储)中实现自动编排。Hedvig公司使用商定的策略在多个节点之间实时管理数据复制:主数据中心、辅助站点,以及威奇塔州立大学(WSU)存储阵列。他说,“只要三个节点中有两个启动并运行,我们的数据就可以正常访问。”
 
最近由于计划外路由器重启,导致威奇塔州立大学(WSU)存储阵列暂时关闭,并对存储系统进行了测试。Pearson说,“Hedvig存储系统注意到了一个问题,进行了隔离,并在15分钟后链接重新上线后立即启动威奇塔州立大学(WSU)存储阵列。我们的数据中心在整个事件中继续正常运营。”
 
Hedvig存储系统与匹兹堡州立大学(PSU)的遗留存储系统配合得很好,遗留系统仍然安装在带有iSCSI连接的Unix服务器上。Pearson说,“我们看到的大多数其他供应商都不支持这种类型的传统配置,但是Hedvig存储系统可以很好地处理它。他们面向客户的代理接口(小型物理或虚拟Linux服务器)作为Hedvig存储环境的多协议连接器,提供一系列块和面向对象的协议,包括NFS、Amazon S3甚至iSCSI。”
 
匹兹堡州立大学(PSU)的IT团队将可恢复性作为日常维护的一部分进行测试,从而降低节点,并记录响应时间。所有存储网络配置都经过充分记录和更新。
 
Pearson说,“我在消防队和乔普林数据中心的工作经历让我意识到,人们不能把任何事情视为理所当然,我的建议是尽可能在存储网络中获取地理多样性。”
 
惩教服务团队支持备份漏洞
 
突发事件:爱荷华州惩教服务部系统管理员Dwain Caldwell说,“有两个时刻让我们改变了备份和恢复方式:一个是人为事件,另一个是自然灾害。”Caldwell在爱荷华州的DCS司法机构工作,该机构为爱荷华州东北部的11个县提供惩教服务。
 
Caldwell表示,几年前,该机构的一个内部人员访问了一个网站,却不知道受到勒索软件的攻击。勒索软件侵入了主文件系统,Caldwell和他的团队很快进行了处理。他说,“虽然团队可以采用有效的备份进行恢复,但是恢复正常操作所需的时间比预期的要长。虽然培训内部员工有所帮助,但我们无法控制社交工程。我们能够控制的是更快地恢复运营。”
 
第二起事件是一场自然灾害,风暴使洪水进入主站点所在的建筑物,并导致主站点建筑物断电。Caldwell 说,“在发生这种情况之前,我认为不会完全停机。这个事件发生之后,我认识到,将主要站点和次要站点放在一起并且没有第三种替代方案是一种不可靠的策略。”
 
虚拟化加速了数据恢复
 
解决方案:近年来,DCS司法机构和惩教部门一直致力于虚拟化他们的计算环境,包括使用虚拟桌面基础设施,Caldwell表示,DCS司法机构的虚拟化率约为80%,这使得实施新的数据备份和恢复计划变得更加简单。
 
DCS司法机构使用Nutanix Core超融合基础设施来处理数据中心和远程站点中的VDI和数据保护以及灾难恢复。他说,“我们能够设置备份和恢复策略,所以如果有人犯了错误,这一切都会在幕后发生。”
 
Nutanix经常存储生产环境的快照,因此如果DCS司法受到勒索软件攻击,Caldwell及其团队可以自动将系统恢复到最近的快照,通常每15分钟一次。
 
IT团队已经开发了测试恢复时间的实验,包括关闭服务器机房以使节点脱机。他说,“目标是看看该节点上的虚拟机需要多长时间才能在其他节点上重新恢复。”
 
他说,恢复应用程序与恢复数据密切相关,因为大多数应用程序都依赖于数据。他说,“用户需要访问历史数据,就像访问应用程序本身一样。”
 
如果Nutanix系统无法提供数据,例如遭遇洪水或风暴等灾难,Caldwell可以利用存储在同一城市和另一地理位置的EMC Data Domain存储设备上的备份数据,而备份位置越近,备份的数据越多。他说,“我们将把最好的备份转移到虚拟沙盒环境中,然后将其推送到主数据中心。”
 
Caldwell说,“如今的备份解决方案比以前更加普遍。企业曾经必须确保恢复磁带的环境与原始配置完全匹配。在我们的虚拟机管理程序环境中,能够更快速有效地获取数据,虚拟化环境和自动化还使得所有存储职责可由IT团队的两名成员处理,我们能够更好地执行备份和修复工作。”
 
Microsoft Office 365的备份和恢复
 
突发事件:总部位于加州温哥华的Aquilini集团有很多子公司,包括Vancouver Canucks和Rogers Arena竞技场。该公司还拥有所有竞技场的业务,其中包括食品和饮料服务,以及酒店、建筑公司,餐厅、蓝莓和蔓越莓农场。这些投资的共同主题是需要保护数据,无论是客户信息、监控摄像机镜头还是销售点交易。
 
当第三方主导的SAN升级出错,并且有可能丢失大量数据时,对其存储保护措施进行了测试。
 
Aquilini集团IT主管Bryce Hollweg说,“我们的数据如果丢,将会导致收入损失和客户不满。”幸运的是,该公司内部IT团队已很好地备份数据。并能够恢复所有数据。但这一事件让Hollweg更加积极主动地备份所有数据,甚至是云中应用程序生成的数据。
 
SaaS的第三方备份
 
解决方案:Aquilini集团已为其近1500名员工的应用程序迁移到Microsoft Office 365。虽然微软公司擅长保证应用程序的正常运行时间,但与大多数SaaS提供商一样,它不太愿意承担数据完整性的责任。Hollweg说,“我们有一些敏感数据流经Office 365网络,我们需要保护它,此外,企业邮箱的数据泄露无疑会导致生产力下降。可以设置的安全层数越多越好。云计算应用的二级和三级措施并不是一种不好的做法。”
 
Aquilini集团使用Veeam Backup for Microsoft Office 365作为辅助措施,以保护Exchange Online、SharePoint Online、团队(聊天)和OneDrive免受意外删除、支持快速恢复和满足法规遵从性要求。备份可以存储在本地、Microsoft Azure或Amazon Web服务中的云平台中,也可以存储在第三方提供商的设施中。
 
Hollweg表示,他不介意采用多个有针对性的工具来管理,因为保护是根据存储的数据类型定制的,这使得可恢复性更快、更容易。他说,“隔离信息是很好的措施,如果有人破解了代码,他们可能访问获取更多的隐私数据。”
 
虚拟机的本地保护
 
突发事件:当位于佛罗里达州杰克逊维尔的招聘和医疗IT咨询机构CSI Companies公司决定用VMware虚拟化其环境(包括SQL Server)时,Matt Greaves希望确保恢复时间目标保持不变。
 
CSI公司IT总监Greaves说,“当我们开始对所有虚拟机进行恢复测试时,其结果很可怕。需要恢复整个网站,我们认为需要30个小时,也可能是90个小时。这是一个巨大的痛点。我们每周需要支付3000到4000人的薪酬,即使薪酬系统停工两小时,也会造成严重的问题。”
 
CSI公司先前使用的备份和恢复软件要求IT团队人工设置何时执行备份,以确定何时执行备份以及为哪个应用程序执行备份。这会存在一些空白,使数据备份过期或不完整,而这样的空白事件发生之后,唯一的选择就是通过人工挖掘和恢复单个事务日志。
 
本地备份可以降低成本
 
解决方案:Greaves决定利用虚拟化环境,并从Rubrik部署了一个独立的存储设备,该设备直接连接到VMware环境中。它可以将特定的策略应用于vCenter中列出的虚拟机,并自动保护粒度级别的数据。他说,“它们执行策略驱动的备份点,这样我就可以设置SQL服务器每隔几分钟获取一次事务日志快照,然后每隔几小时获取一次完整的数据库快照。事务日志现在根据需要自动应用于完全恢复。”
 
他说,“备份和恢复曾经是日常管理的事情,现在我们需要管理Rubrik的唯一时间就是如果我们得到警报,并需要进行调查。”
 
Greaves表示,他们可以通过位于企业SharePoint网站上的最佳实践表快速了解Rubrik的使用情况。
 
他考虑将应用程序和基础设施转移到云端,其中包括备份和恢复,但对其高昂的价格犹豫不决。他说,“对于基础设施来说,进入云计算很容易,并且开始进行操作,但是使用这些工具每小时要支付费用。当我们进行成本分析时,将所有内容保存在数据中心要便宜得多。”
 
专家建议使用SaaS备份
 
许多IT经理对其从现场或从辅助数据中心备份和恢复数据的能力充满信心。当企业引入基于云计算的服务时,事情就变得不明朗。
 
Nemertes Research公司首席信息官兼首席研究分析师John Burke表示,“我们看到很多企业参与云计算服务,以取代CRM等应用程序的内部部署服务,而无需真正了解该服务如何处理备份和恢复问题。”
 
客户通常会过度关注故障转移功能和业务连续性,但不会考虑数据损坏问题或需要回滚到前一周数据的时间。Burke说,“这并不总是一种默认能力。”
 
Enterprise Strategy Group公司高级IT验证分析师Vinny Choinski对此表示认同,他强调说,“在SaaS方面,数据恢复是企业的责任。如果有人删除数据怎么办?谨慎的做法是确保自己了解应用程序的恢复环境。”
 
筛选备份和恢复服务提供商的一个选择是,向企业的SaaS提供商询问他们的偏好。选择其中一个合作伙伴更轻松地集成SaaS备份。
 
虽然为SaaS采用备份和恢复服务可能会增加企业计划成为应用程序的低成本选项,但Burke和Choinski都表示,如果不这样做会使企业的数据容易受到攻击。


上一篇:网站数据泄露日渐严峻,个人信息早就被人利用
下一篇:企业电子邮箱邮件加密解决方案