OT网络安全破局思考(五)OT网络安全风险再认识

OT网络安全破局思考(五)OT网络安全风险再认识

时间:2023-12-19 作者:安帝科技 原创


编者按
后疫情时代,经济低迷、持续下行,影响后果深未见底。俄乌战争凸显“关基”安全保障的极端重要性。美中对抗、大国博弈,国际安全形势瞬息万变。网络安全行业迎来最坏的时代,也是最好的时代。

洞察未来,变的是什么?漏洞后门持续走高,攻击技术的复杂化,攻击对手的高能化,安全风险的动能化,安全需求的多样化,安全目标的弹性化,资产价值的差异化,防御能力的滞后化?等等!不变的是什么?攻防对抗的本质未变;易攻难守的常态未变;敌强我弱的态势未变;安全价值的追求没变。变局中求生存、求破局,不确定性中寻找确定性,这是今后的常态。

ICS(工业控制系统)到OT(运营技术)的转变,ICS网络安全到OT网络安全的转变,完全是数字时代之变。客观的讲,ICS网络安全十多年来的探索,始终没能摆脱移植、模仿、追新的宿命。当OT网络安全深入工业网络底层时,跟随、模仿、移植的套路已力不从心。无论各表一词的工业互联网安全、工业控制系统安全、工业信息安全、工业网络安全、工业安全,都在概念、技术、流程、规范、风险、文化等等方面,面临重大挑战。其本质是对OT域的功能安全、控制安全、过程安全、业务安全、过程安全风险的无知、畏难和回避。

当真正的IT/OT/CT/ET深度融合无处不在之时,OT网络安全如何回归工业本质,如何直面底层防御盲区?如何遏制网络攻击向动能攻击的转化?强调关注“业务、人和供应链”者有之,强调安全能力前置的“设计安全和默认安全”者有之,强调系统工程回归的“弹性工程和知情工程”者有之,强调关注“工业风险和安全运营”者有之,倡导内生的“内置安全、内嵌安全、出厂安全”者有之,等等。OT网络安全的产品技术、解决方案、发展范式,将走向何处?

安帝科技试图对这些问题进行系统思考,尝试探寻自己的解决方案和发展路径。同时,也期望与业内同仁共同探讨,共同探索,共同成长。本期推出系列思考之五:《OT网络安全风险再认识》,敬请批评指正。
OT网络安全风险再认识
网络安全的风险驱动,目前在业内已普遍形成共识,特别是在工业网络安全领域。传统上以IT为中心的信息安全风险概念所形成的系列识别、分析、评估、处置以及沟通、监控等解决方案,在工业网络连接泛在、攻击泛化的背景下确已无能为力。数字化转型驱动的IT与OT、ET的连通以及边缘计算与IIoT的应用,打通的不仅仅是网络安全(cyber security)与功能安全(safety),同时还拉通了网络安全风险与过程安全风险的鸿沟。如果过去网络安全风险的后果还仅限于数据、财产损失,那如今在网络安全风险叠加过程安全风险后,后果由网络域走向了物理域,将导致“性命忧关”的重大后果。尽管过去多数所谓的OT黑客攻击实际上并不涉及对OT系统的任何损害,如Colonial Pipeline勒索攻击、Maersk、Norsk Hydro、JBS勒索……所有这些勒索攻击案例,事实上,也只是IT系统受到影响。真正的OT攻击,即对工业控制系统造成直接物理后果的攻击,比如PLC武器化、RTU勒索、震网病毒,极其罕见。但后果绝非财产损失那么简单了。剖析OT网络风险、OT技术网险、网络物理风险、过程安全风险,在融合安全(一体化安全)的语境下将风险认知、共识、沟通、监控以及评估、处置等能力连通、拉平到同一层级,成为风险驱动的OT网络安全发展的应有之义。
一、OT网络安全风险剖析
风险管理作为一门学科,在日常生活中非常普遍也非常重要,尽管大多数人可能没有意识到这一点。这些风险要么被接受,要么被减轻,要么被忽略,甚至被转嫁。作为一种商业实践,风险管理要比网络安全早几百年,企业通常根据其治理和流程以不同的成熟度级别进行风险管理。数字时代,IT技术对包括财务风险、声誉风险、环境风险、竞争风险、安全(safety)风险和经营风险的影响不期而至,触发这类风险的环境、条件、场景变得普遍且复杂。充分理解这些风险,并遵循一致的过程来评估和沟通整个组织的风险,是企业领导者面临的重大课题。
(一)网络安全风险
不同有机构对风险有不同的定义,但关键的三个要素必不可少,威胁、漏洞/脆弱性和后果。没有特殊声明,网络风险等同于网络安全风险。
NIST IR 8270中对风险(Risk)定义为:考虑到威胁的潜在影响以及威胁发生的可能性,信息系统的运行对组织运营(包括使命、职能、形象或声誉)、组织资产或个人造成的影响程度。
NIST SP 800-160 Vol.2 Rev.1中对网络风险(cyber risk)的定义为:依赖网络资源的风险(即依赖于网络空间中存在或间歇存在的系统或系统要素的风险)。
NISTIR 8183A Vol.3对网络风险(cyber risk)的定义为:通过电子方式引入制造系统的信息和/或操作功能所采用的数字技术因未经授权的访问、使用、披露、破坏、修改或破坏而发生故障/失效,从而导致财务损失、操作中断或系统损害。
NIST SP 800-60 Vol.1 Rev.1对网络安全风险(cybersecurity risk)的定义为:不确定性对信息和技术的影响。网络安全风险涉及信息、数据或信息(或控制)系统的保密性、完整性或可用性的丧失,并反映对组织运营(即使命、职能、形象或声誉)和资产、个人、其他组织和国家的潜在不利影响。
GB/T20984-2007《信息安全技术-信息安全风险评估规范》中将信息安全风险(information security risk)定义为:人为或自然的威胁利用信息系统及其管理体系中存在的脆弱性导致安全事件的发生及其对组织造成的影响。
上述风险通常被定义为威胁乘以漏洞乘以后果。后果是网络攻击对被利用的组织造成伤害,包括敏感数据的丢失、公司声誉、财务影响等。因此,网络风险或网络安全风险,通常被定义为因信息系统遭到破坏或攻击而遭受损害或损失。可见,这些概念或定义还是以IT为中心的,影响和后果止步于对组织/国家的财产损失。
(二)OT网络安全风险
大多数OT资产所有者的OT系统都没有遭受过OT网络攻击。即便有,即无可争议的OT网络攻击,也只有很少的内容被记录下来。目前大多数披露的所谓OT黑客攻击实际上并不涉及对OT系统的任何损害,比如Colonial Pipeline勒索攻击、Maersk、Norsk Hydro、JBS……所有这些都被误称为OT网络攻击,因为受害者的行业属性,他们也使用了数字OT技术。事实上,只有IT系统受到损害。几乎所有关于OT网络风险的警告,基本上都指向IT攻击,这一事实也表明:实际的真正意义的OT攻击,即对工业控制系统造成直接物理后果的攻击,是极其罕见的。
认识到工业组织的复杂性,需要将IT和OT网络风险与灾难恢复的具体概念结合起来。网络风险的定义必须与工业组织内的其他形式的业务风险相一致,例如法律、财务和可靠性风险。
工业网络安全公司Dragos将工业网络风险/OT网络安全风险定义为:用于运营能力的数字技术和通信网络的故障或错误操作可能造成的资产损坏、经济损失、人身伤害、生命损失和其他损害。这里的故障和错误操作,包含了系统的随机故障和蓄意的人为破坏/操纵。
OT技术风险,是指与制造安装的自动化功能相关的风险。它是由OT系统和设备的潜在故障,也可能由故障引起的后果。这些故障可能是蓄意的,如网络攻击,也可能是意外故障。
社会技术风险:这种风险来自制造环境中的监管、组织和人为因素。保护措施的有效性受法规要求、组织结构和人为错误处理的影响。组织流程中的缺陷和人为错误会在系统的整个生命周期中显现出来,包括设计、施工、调试、支持和采购流程。

网络风险是技术风险的子集,要讲技术风险,还需要在网络风险的基础加上软件缺陷和错误、数据中心洪水——或对信息技术或数据或应用程序产生负面影响业务运营的任何其他安全风险。技术风险是运营风险(任何影响组织运作能力的事件)的一个子集。
(三)过程安全风险
过程安全涉及通过实施控制来管理风险,以防止泄漏、溢出、设备故障、腐蚀、部件故障和异常情况。过程安全也称为:过程控制、过程危害分析、hazop、高级过程控制、资产完整性管理、过程风险管理、工业过程控制、过程控制系统、危害分析和风险评估或过程危害评估。过程安全风险是基于随机发生的事件,基于意外发生的事件,如泵故障、密封泄漏、操作失误等。尽管不同的行业可能会使用上述术语中的任何一个,但它们都指的是过程安全和管理工作场所风险的目标。
过程安全用于风险评估的事件规模主要基于物理设备和附件(例如密封件和人为错误)的故障。网络安全的事件规模与威胁行为者的能力(战术、技术、程序)、动机、资源(知识、金钱、设备访问权限)、机会(内部人和外部人的机会不同)以及漏洞的暴露程度(直接暴露给威胁行为者、需要多个步骤才能到达目标、检测机制)相关。
过程安全涉及例如泄漏、溢出、设备故障、超压、超温、腐蚀、金属疲劳和其他类似情况的预防。过程安全计划侧重于设施的设计和工程、设备维护、有效的警报、有效的控制点、程序和培训。
OT网络安全风险第一定律本质上是说,过程安全风险设定了工厂对损失的风险承受能力,与损失的原因无关。因此,OT网络安全风险不应超过此风险承受能力!过程安全风险源自随机故障,例如错误和差错(随机发生的),而系统故障也是差错,但不可预测。网络攻击可能会导致相同类型的故障,并产生相同的后果。但HAZOP或LOPA(半定量风险评估技术)分析也无法解决一些问题。即从根因分析看,无法确定性地判别故障是由网络攻击造成,还是本身就是随机故障。
(四)网络物理风险
描述网络物理风险必须首先界定网络物理攻击。网络物理攻击是指纯粹通过破坏OT和数字控制系统或禁用控制和安全系统来触发物理损害或伤害。这包括对SCADA系统的攻击。一些网络物理攻击可能是有针对性的(专注于破坏特定的技术),而有些网络物理攻击可能会影响跨网络的多个设备。与企业IT相比,通常OT或SCADA服务提供商的数量较少,这增加了企业的潜在风险。蓄意的破坏性网络攻击很难实现,需要专业的黑客和详细的战略规划。目前,实施此类攻击的能力主要集中在民族国家及其支持的组织内部,这意味着目前网络物理风险与地缘政治风险密切相关。
网络物理风险源于自动化功能的失败,可归类为执行能力丧失(类似于可用性丧失)或性能丧失(影响系统完整性)。两种类型的故障都会显着影响物理生产过程及其行为。
网络物理风险将过程自动化功能的网络安全与整个生产装置的过程安全联系起来,从而在个人或社会的死亡/受伤、网络攻击造成的环境损害以及适用的法律标准之间形成联系。网络物理风险评估是一种特殊的风险评估活动,它将过程自动化系统的网络安全风险扩展到生产过程/过程安装的物理域。
全面或半定量的网络物理风险分析对于了解所有危害非常重要,但通常会被替换为基于有限数量的主要网络驱动场景的“勾选框”类型的定性风险评估。“勒索软件”场景非常重要,但在设计良好的过程安装中,控制系统的故障不应导致过程安全相关的危害,进而导致死亡。过程装置的设计方式是,如果控制功能失去,它们可以进入安全状态。如果存在针对安全仪表系统的勒索软件,情况会有所不同,但到目前为止,这只是一种假设的威胁。
由此可见,无论是网络安全风险、OT网络安全风险、过程安全风险,还是网络物理风险,均是从不同的侧面/维度描述了风险的原因、表现和后果,归根结底是有意与无意、主动与被动、内在与外在、有形与无形、财产与生命的区别,最终着眼点仍然是后果与损失。
二、OT网络安全风险计算
通过结果驱动的方法,网络风险及其相关影响可以从工程和可靠性输入中受益,如PHA(过程风险分析)和FMEA(失效模式和影响分析)。这些评估可能已经存在于工业组织中,它们提供了关于可能导致控制系统不可靠、不安全以及可能具有破坏性状态的条件的详细信息——这在以IT为中心的网络风险模型中是不存在的。
(一)灾害风险计算
由于与物理影响和可靠性的联系,工业网络风险应该包括来自灾难恢复和业务连续性的其他概念。灾害风险与网络风险有着极其相似的公式:
灾害风险=危险×暴露×漏洞
这里的三个变量分别是:
危险:导致损失的不利事件;
暴露:受不利事件威胁的财产、人员、工厂、环境;
漏洞:暴露风险于不利事件面前的脆弱性;
然而,在灾害风险中,还有一个概念是“应对能力”或灾害期间的可管理性。第四个元素定义了系统在事件发生后响应以减轻损失的能力。这就重新定义了灾害风险公式:
害风险=危险×(暴露×漏洞)/能力
(二)OT网络安全风险计算
工业网络风险管理流程结合了结果驱动的ICS安全原则和业务恢复概念的最佳实践。在OT安全(security)中,了解网络安全事件可能产生的各种影响(物理损害、健康和人身安全、财务损失、声誉等)是很重要的,这些影响可能已经被评估为危害分析、财产保险研究和其他围绕工程过程一部分。事实上,与传统的以信息为中心的网络安全模型相比,对“后果”的分析更符合灾害风险。然而,另一方面,网络威胁具有独特的优势,能够危及“暴露”资产。因此,工业网络风险公式必须摄取威胁信息,以检查威胁行为者追求的具体后果。
工业网络风险公式的最后一个要素,很大程度上借鉴了围绕“能力”的灾难恢复概念。传统网络安全意义上的漏洞,从数字角度来看,在工业环境中无处不在。然而,对于OT安全专业人员来说,有很多方法可以利用手工恢复或加强缓解和限制,以防止漏洞被利用。这些能力通过缓解和恢复技术降低与特定漏洞相关的总体严重程度。由于这必须结合工程和网络安全,因此工业网络风险公式是经典的以IT为中心的网络风险公式和业务连续性概念的综合体:
OT网络风险=后果×(威胁×漏洞)/弹性
显然,这个计算公式还不能用于定量风险评估。
自动化安全专家辛克莱·科勒莱米基于LOPA技术,提出了定量风险方法来估计OT网络安全风险,这是一种可重复的结构化整体定量方法。

这里的关键要素是条件概率 P(S|A),即威胁行为者攻击成功的概率。这种条件概率部分代表了过程自动化系统的网络弹性。如果我们想要估计由特定威胁参与者执行的特定网络攻击导致特定流程或业务损失场景成功的事件频率/可能性,那么我们需要量化这种网络弹性。
(三)OT网络安全风险评估原则
无论是使用定性或定量的OT网络安全评估方法,工业组织必须考虑建立风险管理程序,而且必须首先明确几个关键的原则。
角色和责任清晰原则;建立清晰的沟通以及角色和责任,跨IT和OT能力的网络风险,包括网络风险和灾难风险是如何关联的。
术语通用化原则;使用每个业务单元的通用术语来描述风险,避免不能同频共震、出现鸡同鸭讲的情况。
过程可重复原则;创建一个可重复的过程来评估影响,保持一致的方法来评估网络风险。在可能的情况下利用业务连续性和/或功能安全影响分析。
威胁能力优先原则;评估相关威胁,威胁方能力有大小、水平有高低,特别注意可能影响工业过程的能力,这可以与结果驱动分析相联系。
标准融合原则;利用ET、IT和OT团队的专业知识确立“风险所有者”和评估成功的标准。
处置方法穷尽原则;使用行业组织可用的所有方法,包括技术和程序控制、监控和保险,处置已评估的网络风险。
残余风险可控原则;理解OT系统总是会有残余风险的因素,这些风险永远不会被消除,但可以通过工程和财务控制进行管理。
传统的单纯的IT网络风险计划不能满足建立OT网络风险管理计划所需基本要素。保护工业过程需要多学科的方法,以工程学为基础,以物理世界的影响为基础。OT网络风险管理在保护企业方面发挥着关键作用,但OT需要根据独特的威胁、后果、漏洞以及它们的弹性运行能力,重新考虑网络风险。
三、OT网络风险管理的挑战
风险管理是一个持续的、互动的过程,融入到正常的业务运营过程中。在运营技术 (OT) 系统的背景下,组织传统上通过既定的安全和工程实践来解决风险。大多数行业都已建立了安全评估,并且监管框架通常要求进行安全评估。OT网络风险管理与IT网络风险管理截然不同,它涉及一种工程方法来解决网络攻击的最坏后果,这种后果可能远远超出数据风险,延伸到物理世界:对财产、系统、环境、甚至工人伤亡和对公共安全的威胁。
(一)风险认知与共识的挑战
网络安全是OT和IT的共同责任,解决网络安全威胁带来的业务风险需要弥合两者之间的文化和运营差异。在这种共享安全模型中,各方都可以利用全部可用资源。必须对潜在的知识产权损失、伤害、生命损失和以及运营中断进行管理,以保护组织的核心业务。这需要IT和OT安全团队和领导者保持一致,以实现沟通并加强关系。
首先认识到OT风险的综合性以及整体解决该风险的必要性。例如,应避免采用孤立的OT事件响应方法,并且这些响应流程需要与相关事件响应流程(例如流程安全事件的响应流程)保持一致。
其次,OT安全风险应由多学科团队进行管理,以实现更平衡的风险缓解方法。在某些情况下,非数字安全措施可能比添加纯“数字”解决方案更有效。
最后,组织必须认识到,在人员-流程-技术的顺序中,技术是最后的元素。如果没有管理流程,购买技术解决方案通常是无效的。如果人们不了解危险并且缺乏降低风险所需的培训,那么流程就不会有效。

(二)风险管理框架/标准的挑战
在风险管理领域,有四个关键组成部分构成了流程的基础。这些组成部分包括框架化风险、评估风险、响应风险和监控风险。这些要素紧密相连,并且经常在组织内同时发生。例如,从监控风险中获得的见解可以为框架组件提供信息。随着组织环境的不断发展,风险管理必须是一个持续不断的过程,每个组成部分都需要持续关注。
在组织层面、业务层面、系统层面,虽然关注的风险领域和重点不同,但需要遵循统一、协调的风险管理框架和理念。单独依据传统过程安全风险管理的框架、标准来应对新兴OT网络风险,是不足够的;而依据现在以IT为中心的信息安全风险的管理框架和方法,来应对OT网络风险也是不足够的。
企业可以自行设计OT网络风险管理流程,但这要着重考虑如下几个因素:能够适应现有的任何风险管理流程;能够充分利用现有风险管理(和网络安全)国际标准或国家标准;能够用离散的过程来处理网络风险管理;企业根据自身网络安全能力成熟度,采用网络风险管理工作流程的部分。
(三)风险定量分析的挑战
目前OT安全风险仍被视为一个孤立的学科,而过程安全风险和可靠性风险学科则早已更有效地结合起来。这种差异是由于OT安全风险管理的成熟度较低造成的。虽然半定量风险分析在过程安全和可靠性工程中很常见,但很少应用于OT安全风险。
融合风险管理和工程团队来应对OT网络安全风险;需要在风险管理和工程之间建立更好的沟通渠道。管理OT安全风险的成熟度需要这种协作。管理 OT 安全风险需要采用多学科方法,涵盖流程安全、流程操作、流程自动化、网络安全和风险分析方面的技能。
由于对OT环境可见性的限制、风险因素与OT补偿措施的不完整、OT网络安全风险因素量化的灵活性不够,标准解决方案中的OT网络特定风险评分往往会产生误导。
四、小结
OT网络安全风险、网络物理风险、过程安全风险之间即有区别又有联系,目前还没有行业公认的能够对其实施定性、定量评估的统一标准和规则。即不能简单在套用成熟的过程安全风险评估方法来应对OT网络安全风险,也无法将传统信息安全风险的评估方法用于OT网络安全风险。这仍然是一个期待突破与创新的领域。过程安全和网络安全之间差着一个威胁行为者及其意图的组合,这导致过程安全风险与网络安全风险完全不同。但OT网络安全风险第一定律表明,不论如何,在设定风险容忍度的情况下,OT网络安全风险不能大于过程安全风险。