揭密容错技术的前世今生

2010-08-28 10:44:42来源:西部e网作者:

  现如今,容错服务器对很多用户来说,早已不再陌生。建立在冗余技术基础之上的容错服务器,在解决单点故障、缩短故障恢复时间、降低人为错误、减少部件和软件版本不兼容等方面相对于集群服务器都显示出了其强大的优势,并逐渐成为服务器市场的新亮点。

  近年来制造业、能源、交通、教育等行业对IA服务器的需求量迅猛增长,他们不仅期望服务器能够提供7X24小时的不间断连续运行,同时还希望减少维护工作量,以控制TCO(总拥有成本)等等。从2003年起,以超过20%的市场占有率名列日本服务器市场第一位的NEC服务器进入中国市场,使国内用户真正开始接触到IA架构、Windows 2000平台的容错服务器。事实上,容错技术从问世到现在,已经拥有了20年的历史。


  前世:铜雀深宫锁二乔?

  用“大器晚成”形容容错技术20年来不断完善、发展的历史,实不为过。早在20世纪80年代,第一代容错技术就开始进入商用领域。美国Stratus(容错公司)采用了Motorola M68000处理器,在Stratus独特的硬件级容错技术及VOS专有操作系统环境下,为满足金融业、证券业、电信业,交通业及博彩业的需求提供了可靠的保证。Stratus领先的硬件级容错体系结构确保了99.999%的连续可用性,在当时遥遥领先于其他技术。但由于此服务器采用专有处理器与操作系统的封闭式架构,所以给它的广泛推广与大规模应用造成了阻碍,而其相对较高的成本和复杂的维护工作量也使得其局限于少数应用。

  随着Intel 公司在处理器方面在全球取得巨大的成功,容错技术开始考虑在Intel 硬件基础上实现。1993年,Intel I860处理器在Stratus的硬件级容错体系结构得到了成功应用,标志着容错技术向普及迈出历史性的一步。而对硬件支持上的开放性也大大扩展了容错服务器的行业应用。在软件环境方面,容错技术也取得了巨大的突破,除了美国容错公司的VOS专有系统之外,它还能够满足业界对开放性要求的Unix操作系统FTX,即AT&T UNIX SVR4,Stratus FTX 结合开放特性及标准 UNIX 的优点,同时拥有多种扩展能力,并提供优异的可靠性、可用性和服务性。 FTX 可以为用户提供适应力强的容错 UNIX 环境,让用户调配内核配合独特的需要。然而第二代容错技术仍然对硬件与软件极为苛刻,支持的数据库与应用平台也相对匮乏,因此商业应用领域仍然不是非常广阔。

  1996年,容错技术得到HP公司的支持,共同推出Stratus Continuum 系列,将 Stratus容错结构结合 HP PA-RISC对称多处理技术,以强劲的性能赢得了可靠的运营环境。基于 Hewlett-Packard UNIX 的操作系统是为达到更可靠与更高可用性的业务关键应用而设计。   HP-UX提供完全的 ABI 兼容能力,使用户在该环境运行各种各样的商业应用,再加上HP公司在RISC领域的强大技术与影响力,容错技术在关键应用领域开拓了更为广阔的市场,尤其在电信、金融、证券等行业,容错技术凭借其Unix环境下99.9999%的高可用性赢得了广大客户的共同认可。

  21世纪以来,全球信息技术革命如火如荼,制造业、中小企业、能源、交通等领域对服务器特别是中低端IA服务器需求激增,而过去仅仅可以应用在RISC平台、HP-UX环境下的容错产品面临着新的挑战。另一方面,企业越来越依赖信息系统来完成关键业务的应用,对服务器系统的可用性、高安全性提出更高的要求,同时他们不可能配备更多的专业人员来进行专职维护,这是双机热备、集群服务器难以解决的问题。


  今生:奋威杀出新江湖

  顺应IA架构市场占有率的激增,以及Windows Server 2000及Linux在服务器领域的迅猛发展潮流,NEC 公司通过与美国容错公司多年合作,于2001年推出了业界第一台基于IA架构、支持Microsoft Windows Server 2000标准操作系统环境的容错服务器。它代表了 Microsoft Windows 平台下世界最高水平的系统可用性。 该系列容错服务器采用 Intel 处理器及其他标准服务器部件,让各行各业以更为适宜的成本体验到容错技术的优势。由于容错服务器的体系结构是属部件级冗余设计的体系结构,其结构的可靠度指标要比双机Cluster系统要高得多,以低成本实现了小型机的可靠性。

  NEC 公司的Express5800/ft系列在Windows 及Linux平台上的可靠性达到了99.999%,代表了同等环境下全球最高的系统可用性。这种实时保护技术的来源是STRATUS连续处理技术(Fundamentals of Continuous Processing Design),它包括步锁(LOCKSTEP) 技术,安全故障(Failsafe)软件和激活服务(ACTIVE SERVICE) 结构三个基础
 

  连续处理设计核心原理的三个基础技术

  1)LOCKSTEP 技术

  LOCKSTEP技术使用相同的、冗余的硬件组件在同一时间内处理相同的指令。在一个组件失效的同时,另一组件作为一个激活的备用组件继续正常的运转,并且避免系统的死机。系统也能发现和纠正短暂的硬件错误,如果不检查,将会导致软件错误。

  LOCKSTEP技术可以保持多个CPU,内存精确的同步,在正确的相同时钟周期内执行相同的指令。LOCKSTEP处理保证能够发现任何的错误,即使短暂的错误,系统也能够在不间断处理和不损失数据的情况下恢复正常运行。

  NEC Express5800/ft系列采用了LOCKSTEP硬件设计,使用两个CPU-内存集合(主板)双模冗余的(DMR)模式,较过去的容错技术有了明显的改进。在硬件设计方面不断增加工业标准,以标准的模块组件方式提供了更高的性价比,更大的空间效率,更好的投资保护和更简单的使用性。

  2)安全故障(FAILSAFE)软件

  FAILSAFE 软件和LOCKSTEP技术运行一致,防止许多的软件错误和储运耗损。不同于其他类型的服务器或群服务器,NEC Express5800/ft硬件和软件易发现和处理更多的错误,屏蔽操作系统、中间件和应用软件。容错技术的另一优势就在于它可即时保护和维护内存数据。FAILSAFE软件在Windows 2000/2003环境下采用热插拔、内存镜像、负载均衡、多点终止失效、多通道I/O等方式,大大增强了系统连续运行的稳定性。

  FAILSAFE可以管理和诊断特征捕获,分析和通报服务器的软件问题。这允许个人在软件发生错误之前去纠正错误。FAILSAFE 软件有几大功能来为Express5800/ft系统WINDOWS环境中增强可靠性:软件保护短暂的硬件故障;增强的驱动程序来预防软件失效;软件问题的捕获、分析及修正;内存数据的连续性维持;丰富的纠错功能可以解决各种不同的错误。显然,传统服务器根本无法避免任何硬件与软件出现故障,即便是高可用集群系统,也只能通过重启和恢复机制来使软件尽快重新启动并运行,而不具有预先防止软件内部发生隐含错误的功能。

  为了避免物理撞击等意外故障,安全故障软件还提供了自动重启功能,能够将宕机前CPU与内存数据即使保存下来,最大限度避免数据的意外丢失。

  3)激活服务(ACTIVE SERVICE )

  当然,假如容错服务器的硬件发生永久性故障,尽管系统能够正常运行,也必须及时更换硬件才能维持容错的冗余架构。容错服务器都配带了简易直观的图形界面管理监测工具,(如NECExpress5800/ft提供了ESMPRO 管理软件),能够对服务器中硬件运行及故障状态进行适时监控。当一个错误被发现时,服务器将正确地隔离环境,并且自动打开一个命令,让NEC 技术支持中心或者网络管理员正确地执行命令。当服务器某部件如CPU或者内存发生故障时,技术支持人员可以及时更换配件,同时保证服务器系统继续运行不间断。


  容错技术前景无限

  容错技术的应用已经开始从过去的银行业、证券业、电信业等领域进入基础行业,如制造、能源、物流、交通,以及有着7×24不间断运营需求的中小商业团体和政府。NEC为了迎合互联网的高速增长,为容错服务器引入了最新的Linux版本。众所周知,Linux这个革命性的开放式平台,具有稳定,安全、可升级、功能强大等特性,为如今的互联网商业迈向成功提供了更多的便捷。

  而容错的未来将会向着更高的可用性、更卓越的可维护性方向发展,调查显示越来越多用户开始注重TCO(总拥有成本)而不是初期购买价格,而关键业务的停顿造成的经济损失更是难以估计。据Qualix Group统计数据表明,1分钟的宕机停顿就能使运输业损失15万美元,制造业的损失则会上升到42万美元之多。因而,更多的企业决定逐步放弃采用99.9%可用性的双机热备以维护复杂的集群服务器,将目光瞄向具有容错技术的平台或容错服务器平台。另一方面,NEC 与国内最大的IT供应链管理服务商神州数码联合,在一定程度上弥补了容错服务器在中国市场与服务拓展的短板。这将引发国内各领域容错市场的井喷式发展,越来越多的企业可以体验NEC全球尖端服务器技术为用户提供实时在线交易服务,在下一步电子商务竞争中获取更多的竞争优势。

关键词:NEC