OT网络安全术语辨析:弹性vs健壮性
时间:2023-08-31 作者:安帝科技
在OT网络安全领域,当研究人员提及防御能力时,常常会提到术语“弹性(resilience)”一词,有时则会使用“健壮性(robustness)”,也有称作鲁棒性。网络弹性,弹性工程,是最近两年的热词。弹性已经写入了美国、英国、欧盟等多个国家的网络安全国家战略中,特别在“关基”安全保护的政策、法规中更是频繁出现。中国科学家邬江兴院士于2013年提出了网络空间广义鲁棒控制的概念,探讨在广义不确定扰动下仍能维持系统设计的功能性能满足期望的控制品质,他认为目前弹性工程仍然面临三大挑战性问题。尽管这两个术语是相互关联的,但它们之间却存在一些重要的区别。健壮的安全防御与弹性的安全防御具有截然不同的属性。
一、弹性与健壮性的基本概念
若要区别两个术语,很重要的一点是要看它们是如何被定义的。
NIST SP 800-160 Vol.2 Rev.1将弹性定义为:准备和适应不断变化的条件以及承受破坏并快速恢复的能力。弹性包括承受故意攻击、事故或自然发生的威胁或事件并从中恢复的能力(The ability to prepare for and adapt to changing conditions and withstand and recover rapidly from disruption. Resilience includes the ability to withstand and recover from deliberate attacks, accidents, or naturally occurring threats or incidents.)。
NIST SP 800-172将网络弹性(cyber resilience)定义为:对使用网络资源或由网络资源促成的系统的不利条件、压力、攻击或损害进行预测、承受、恢复和适应的能力(The ability to anticipate, withstand, recover from, and adapt to adverse conditions, stresses, attacks, or compromises on systems that use or are enabled by cyber resources.)。
具备弹性的系统的特点是将安全措施“内置”为体系结构和设计的基本部分。此外,这些系统可以承受网络攻击、失效和故障,即使在退化或衰弱的状态下也可以继续运行,执行任务基本功能,并确保其他方面的可信性(特别是功能安全和信息安全)得到保护。
NIST SP 800-137A将健壮性定义为:信息保证(IA)实体在广泛的操作条件下正确可靠地运行并在该操作范围之外正常失效的能力。文字难以直观地对二者进行对比,但图1可以清晰地解释二者之间的区别(The ability of an information assurance (IA) entity to operate correctly and reliably across a wide range of operational conditions, and to fail gracefully outside of that operational range.)。
健壮性是指一个系统即使在网络攻击等不利条件下也能执行其预定功能的能力。一个健壮的系统是一个即使在面临中断或意外事件时也能保持其性能和功能的系统。健壮性涉及防止或减轻中断影响的能力,以保持功能和性能。系统的健壮性是容忍可能影响系统功能体的扰动的能力,也可理解为系统在不调整其初始稳定配置的情况下抵抗变化的能力。
二、增强弹性防御的典型方法
关于网络弹性的讨论都基于一个假设:对手将破坏防御系统,无论是通过入侵还是通过供应链攻击,对手将在组织系统中长期存在。假设系统中存在一个复杂的、资源充足的、持久的对手,在很长一段时间内都不会被发现,这是网络弹性和其他可信赖性方面的关键区别。
1、网络攻击的典型后果
首先需要明确的是,针对OT系统中过程装置的网络攻击的典型后果有哪些?简单列举,这可能是:
生产停滞——导致经济损失。
安全事故——如爆炸、化学失控反应、有毒气体泄漏、储罐/容器的主要容器失效和火灾。其中许多可能导致工厂人员受伤或死亡,甚至影响公共区域,并造成环境污染。
设备损坏——设备可能过热,容器、管线或管道可能破裂,导致昂贵的维修或更换或造成上述安全隐患。
违规行为——环境污染或违反个人或社会风险标准等行为。
供应链中断——包括工厂内部以及工厂的供应商和客户。这可能会导致延误、短缺和成本增加。
知识产权损失——网络攻击可能导致商业秘密、配方和流程等知识产权的损失。这可能导致化学品生产过程处于竞争劣势、收入损失以及公司声誉受损。
2、增强弹性的典型方法
检测——需要了解己方安全是否遭到破坏,以便组织快速采取措施以减轻破坏的影响。
事件响应——在检测到入侵发生或紧急情况出现之后采取相应措施。
灾难恢复——当防御失败并且响应不及时时,需要采取恢复措施。根据防御措施的弹性和生产过程,这需要时间。
网络分段——通过赢得时间来检测和阻止正在进行的安全危害,防止外部威胁者直接访问过程自动化系统的最基本功能。当然,这需要正确地实施网络分段(如微隔离),使威胁行为者面临多个障碍来推进其攻击。
数据恢复——确保有足够的备份可用于恢复过程自动化系统的系统组件。
但是还有其他因素需要考虑。如图1所示,对于情况③中描述的破坏性事件,过程自动化系统能够快速反应,在相对较短的时间内就能恢复正常运行,由此带来的可能财务损失有限。情况④中的弹性较小,因为恢复时间(可能还有财务损失)较长。
当审视情况④的弹性时,安全人员需要考虑:
检测和响应时间——需要把这两者结合起来,因为仅实施检测机制而没有适当的响应能力是一种浪费。
恢复时间——就像检测和响应需要被视为一对相互呼应的运作,响应和恢复也是一对。遏制和取证分析毫无疑问是有益的,但这些并不能重新启动过程。快速恢复对于减少供应链损失至关重要。
3、系统恢复的考量因素
恢复时间取决于多种因素。
首先,需要考虑的无疑是检测和响应时间,以开始遏制威胁,并在必要时进行根除(如果威胁行为者在系统中具有主动/被动存在)。
其次,恢复所需的时间因设施而异。对于纸浆厂或电网等生产过程是主要功能的设施,可以相对较快地将生产过程恢复到正常状态。但是对于化工厂或炼油厂等设施,仅恢复过程自动化系统可能不足以解决问题。需要进行更复杂的重建过程,包括评估破坏性事件造成的损害,验证和修正控制器模式、控制参数、批处理序列、管道网络和安全保障,并将其与实际过程状态同步。
第三,可能需要测试过程的部分内容,以确保其正常功能和过程安全性。化工厂、炼油厂或气体处理/传输厂的重建过程比其他设施更复杂、耗时,需要细致而认真的方法,以在重新启动之前确保生产过程的安全性。
最后,除了重建时间外,还需要考虑系统启动时间和长期恢复时间,即使恢复了过程自动化系统,也需要一定的时间让系统达到正常运行的水平。
因此,弹性需要考虑的东西很多,不仅仅是过程自动化系统,可以建立保护措施,限制威胁行为者可能造成破坏的手段,并促进恢复过程。例如,具有电气过载保护的泵比没有此类不可入侵保护的泵更难受到攻击危害。
三、增强健壮性的典型方法
健壮性是闭环系统在系统参数大范围变化时不敏感的能力。健壮性和响应速度之间的权衡是控制系统设计的关键问题。
加固——减少攻击面,通常适用于终端,从而减少威胁行为者的机会。
防火墙——通过控制进入过程自动化网络的访问并可能限制过多的通信负载来减少攻击面。
打补丁——减少威胁行为者的机会(攻击面并没有减少)。
防病毒——当恶意软件被写入磁盘时,隔离被感染的文件。
USB保护——防止数据传输到系统中,最好与对恶意软件的检查相结合,因为USB文件传输可能是必要的。
应用程序控制——防止安装和/或执行未经授权的可执行文件。
健壮性侧重于预防性的安全措施,但是像图1中情况①所展示的理想安全防御并不存在,情况②的发生却难以避免。当发生此类破坏行为时,就到了展现出系统弹性价值的时候。
对于健壮性,研究人员可以只关注过程自动化系统的OT安全防御,而对于弹性,则需要一个更全面的OT安全方法。这是因为过程自动化系统与物理过程设施装置中发生的事情有密切的关系。
讨论健壮性时,通常会关注实施初始安全措施之后发生的事情,以及如何能够减轻这些安全危害的影响。简单的举例,比如飞机设计要求配备有四个发动机,那就是即便有一个或两个发动机故障的情况下,它仍然能正常飞行。
小结
维持、应对和承受的能力涉及健壮性,而恢复或反弹的能力则涉及弹性。高水平的健壮性是网络攻击图中左侧的预防控制部分,而弹性包括图右侧的缓解控制部分。若要成功地防御攻击,需要既有弹性又有健壮性,如果只专注于弹性,则会忽略预防措施,如果只专注于健壮性,则会忽略缓解措施。为了全面考虑,安全研究人员需要进行网络物理风险评估,因为需要了解潜在网络攻击和过程后果之间的关系。只有这样才能了解危害,并制定出一个平衡且具有弹性的网络防御措施。NIST SP800-160,第二卷,第1版,开发网络弹性系统:系统安全工程方法,提倡摒弃基于边界的防御,更多地关注于构建弹性IT系统,通过限制攻击者对网络或基础设施造成的破坏来抵御现代攻击。关键基础设施更需要拥有健壮且具有弹性的安全防御。