• IIANews微官网
    扫描二维码 进入微官网
    IIANews微信
    扫描二维码 关注微信
    移动客户端
  • English
WAIC 2025早鸟票预售
嵌入式系统

关键应用发生故障究竟会造成多大的损失?

  2014年06月10日  

  了解服务器发生故障和关键系统停止工作导致的停机时间对公司的影响程度至关重要。本文将为大家介绍六种停机成本,以及四种用于防止关键应用停机并对这些应用进行管理的方案。

  本文改编自综合性白皮书《关键应用故障的成本》。

  服务器发生故障时,很多(即便不是全部)关键应用都会不可用,停机成本每分钟都在增加。您知道服务器停机究竟会给您带来多大损失吗?

  大多数工业企业的领导都不知道。如果不知道实际损失,公司对数据中心技术和可用性保护方面进行合理投资的能力会被削弱。从根本上说,高可用性取决于企业对于计算机系统对该企业的价值认知以及基于这一认知做出的商业决策。

  本文研究了六种停机成本和四种可以防止关键应用停机的方案。

  六种停机成本

  停机成本不仅包含要照常支付给员工的工资,还包括各种直接和间接成本。您的销售额和员工生产率都会下滑。客户会失望,而您的竞争对手将从中受益。我们可以将这些成本分为以下六类:

  1. 业务成本。照常支付给员工的工资、加班费和人工成本都是停机期间的业务成本。销售额会下滑,未来的回头客数量也会减少。其他业务成本包含库存下降、半成品废弃、未能满足相应服务等级协议的要求而招致的潜在法律处罚,以及因第三方要求亏损补偿而引起的诉讼成本。

  2. 生产率成本。断电期间,员工无法开展日常工作。生产率损失的惯用算法是:

  (员工平均工资 x 停产小时数)+ 员工为弥补耽误的工时而加班的加班费。

  3. 恢复成本。这些成本包含维修系统的成本、IT 员工的加班费和聘请第三方顾问或技术人员来恢复服务的费用。另外,还需考虑 IT 部门因需要集中精力恢复系统而无法开展其他关键项目时牺牲的机会成本。

  4. 客户流失。之前的忠诚客户将失去信心,转而采用竞争对手的产品。一旦公司被认为不可靠,您就很难改变人们的这种看法。

  5. 声誉受损。无论公司大小,负面影响都会致其名声严重受损。负面新闻标题、Twitter 上的投诉或 Facebook 上的负面帖子均会损坏名声。行业网站和博客会关注目标市场,因此负面帖子会让客户和潜在客户印象深刻。

  6. 股东价值影响。负面报道还会使公司股票贬值并减小公司的市值。尤其是在经济动荡时期,股市会受到公司负面报道的影响。

  四种保护关键应用的方案

  考虑最关键应用所需的可用性等级。对于运行生产线的工厂应用、CRM、企业资源规划 (ERP)、运行业务的后台数据库、财务软件和电子邮件服务器等关键业务应用,服务中断和数据丢失的代价非常大。

  您还可能拥有不允许发生停机的关键任务型应用。例如:

  • 制造执行系统 (MES)

  • 安全系统

  • 交易与银行业务系统

  • 支持紧急响应操作的应用

  • 控制维系生命过程的应用

  • 军事和民用安全应用

  有四种可选方案可以防止停机:

  1. 标准服务器:正常运行时间达 99%。基于 x86 的标准服务器通常将数据存储在 RAID(独立磁盘冗余阵列)存储设备上。x86 服务器的功能因供应商而异,支持各种操作系统和处理器。

  不过,标准 x86 服务器只具有基本的备份、数据复制和原位故障切换功能,这就意味着它容易受灾难性服务器故障的影响。

  标准服务器并非专为防止停机或数据丢失而设计。发生故障时,服务器将停止所有处理工作,用户无法访问应用程序和信息,因此数据可能会丢失。

  标准服务器也不会为传输中的数据提供保护,即如果服务器发生故障,该数据也会丢失。供应商提供的标准 x86 服务器的可用性并不高,但用户可以选择在初始安装和部署后添加可用性软件。

  2. 传统的高可用性解决方案:正常运行时间达 99.9% ~99.95%。能够快速恢复系统的传统高可用性解决方案基于服务器群集:两个或多个服务器以相同配置运行并与群集软件相连,从而使两个或所有服务器上的应用数据能够持续更新。

  高可用性群集中的服务器(节点)通过持续检查“心跳”的方式彼此通信,“心跳”可用于确认群集中的其他服务器正常运行。如果服务器发生故障,群集中的其他服务器(将其指定为故障切换服务器)会自动取代故障服务器,从而将对用户的影响降至最低。

  群集中的计算机通过局域网 (LAN) 或广域网 (WAN) 相连,并通过群集软件进行管理。故障切换群集需要通过存储区网络 (SAN) 来提供对启用故障切换功能所需数据的共享访问。即需要专用的共享存储或到企业 SAN 的冗余连接。

  高可用性群集可延长正常运行时间,但其效能高度依赖于专业 IT 人员的技术。群集的部署复杂且耗时,且需要对群集进行编程、测试和持续监管。因此,总拥有成本 (TCO) 非常高。

  而且,高可用性群集不会消除停机。服务器发生故障时,与该服务器相连的所有用户都会丢失连接。因此,尚未写入数据库的数据将丢失。

  3. 高级高可用性解决方案:正常运行时间达 99.99%。最高级高可用性解决方案是专为防止停机、数据丢失和业务中断而设计的软件,复杂性较低。它们具备预测功能,能在故障导致停机之前自动识别、报告和处理故障。

  高级高可用性软件可与标准 x86 服务器配合使用,员工无需具备相关高级技术即可对其进行安装和维护。

  此外,这些软件无需 SAN,这就使系统更易于管理,公司的 TCO 也得以降低。高级高可用性软件能够配置和管理自身运行,使应用环境的设置更为简单、经济。

  高可用性群集和高级高可用性软件之间的主要差异是:软件会持续监视问题,以防发生停机,而群集解决方案则专为故障发生后的恢复而设计。高可用性软件的目的是防止发生停机,最有效的解决方案可提供 99.99% 以上的正常运行时间。即一年的意外停机时间小于一小时。

  4. 容错解决方案:正常运行时间达 99.999%。容错解决方案也称为持续可用性解决方案。容错服务器具有最高的可用性,这是因为其系统组件冗余消除了单点故障。即用户永远不会遇到服务器可用性发生中断的情况,原因是停机已被预先制止。

  由于系统中存在第二组完全冗余硬件组件,可实现服务器的容错功能。服务器软件会自动同步重复的组件,同步执行所有的处理工作,因此能始终保护“动态”数据。

  两组 CPU、RAM、主板和电源均同时处理相同的信息,如果其中一个组件发生故障,其配套组件可取而代之,系统保持正常运行。

  容错服务器还具备内置的故障安全软件技术,该技术能在系统问题导致停机之前检测、隔离和纠正这些问题。

  也就是说,操作系统、中间设备和应用软件不会发生错误。内存数据也得到持续保护和维护。

最新视频
苏州新鸿基:破解精密机加的柔性密码   
茵梦达x富诺尔:携手共铸信任力,共赴百年承诺之旅   
研祥金码
40年‘针’功夫提速新能源产线
专题报道
《我们的回答》ABB电气客户故事
《我们的回答》ABB电气客户故事 ABB以电气问题解决专家之志,回答未来之问。讲述与中国用户携手开拓创新、引领行业发展、推动绿色转型的合作故事,共同谱写安全、智慧和可持续的电气化未来。
企业通讯
2025世界人工智能大会
2025世界人工智能大会

2025世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2025”)将于7月在上海世博中心和世博展览馆举行

【邀您报名】2025智能趋势论坛——AI数算 重构智造产链生态
【邀您报名】2025智能趋势论坛——AI数算 重构智造产链生态

7月27日,2025智能趋势论坛将以“AI数算 重构智造产链生态”为主题,邀请业界专家、学者和企业家深度交流对话,围绕"

在线会议
热门标签

社区