当前位置：网站首页>功能安全之故障(fault)，错误(error)，失效(failure)

功能安全之故障(fault)，错误(error)，失效(failure)

2022-07-06 05:58:00 【瞻邈】

功能安全中的有些概念比较绕，比如故障(fault)，错误(error)，失效(failure)，本文就这三个概念进行下探讨。

1. 故障

功能安全中定义的故障是指可引起要素或相关项失效的异常情况。

故障可以分为永久故障和非永久故障，其分类如下图所示。

永久性故障是指发生并持续，直到被移除或修复的故障。也就是说永久性故障发生了必须采取相应的措施才能够使其恢复其正常运行。其中系统性故障一般表现为永久性故障。

非永久性故障可以分为间歇性故障和瞬态故障。间歇性故障是指故障一再的发生，然后消失。当一个组件处于损坏的边缘时，或者例如由于开关的电涌（电压的瞬态激烈变化），间歇性故障可能会发生。某些系统性故障（例如时序混乱）也可能导致间歇性故障。

瞬态故障是指发生一次且随后消失的故障。瞬态故障可由电磁干扰引起，其可导致位翻转。比如由于单粒子翻转效应(SEU)和单粒子瞬态脉冲(SET)发生的软错误，均为瞬态故障。（单粒子翻转是宇宙中单个高能粒子射入半导体器件灵敏区，使器件逻辑状态翻转的现象。）

2. 错误

ISO 26262中定义的错误是指计算的、观测的、测量的值或条件与真实的、规定的、理论上正确的值或条件之间的差异。错误可由未预见的工作条件引起或由所考虑的系统、子系统或组件的内部故障引起。故障可表现为所考虑要素内的错误，该错误可最终导致失效。

比如由于宇宙中单个高能粒子射入半导体器件灵敏区，使存储器逻辑状态翻转的单粒子翻转效应SEU，使得软件中某个bit位从0到1或者从1变成0是属于一个软错误（硬件没有损害）。

从上可以看出故障，错误和失效的大概关系是故障可引起错误，错误再导致失效。下文会再做详细说明。

3. 失效

失效，按照ISO26262的定义是要素按要求执行功能的能力的终止。

（英文：terminationof the ability of an element to perform a function as required）

注：不正确的规范是失效的来源之一。

在这里失效针对的是功能的丧失或者终止。比如对于电机控制器来说，其主要的功能之一是根据整车控制器VCU的扭矩请求，对电机进行转矩和转速的控制，因此无论输出的扭矩非预期的偏大或者偏小都是一种失效。

3.1. 系统性失效和随机硬件失效

在功能安全中依据失效的原因可以分为两种：系统性失效和随机硬件失效。ISO 26262的主要目的就是尽可能的消除这两类失效。

（1）系统性失效（systematic failure）

以确定的方式与某个原因相关的失效，只有对设计或生产流程、操作规程、文档或其它相关因素进行变更后才可能排除这种失效。

系统性失效存在三个特征：

A- 仅仅进行正确维护而不加修改的情况下，无法消除故障。

B-通过模拟失效原因可以使其重复出现。

C-是人为错误引起，失效原因比如：安全要求规范的错误；硬件的设计，制造，安装，操作的错误；软件的设计和实现的错误等。

软件故障和部分的硬件故障是属于系统性故障。比如coding的时候没有考虑使用数据类型的错误，某变量（比如精度为1，offset为0）本应该使用U16的，结果用成了U8，使得计算的最大数值只能到255。这里的软件bug是属于系统性失效。

（2）随机硬件失效（random hardware failure）

按照ISO 26262的定义，随机硬件失效是在硬件要素的生命周期中，非预期发生并服从概率分布的失效。并且可在合理的精度范围内进行预测。

非预期发生的含义是尽管硬件的设计是正确的，比如电子元器件的选型，电阻值，电容值，电路设计等都是正确的，且器件是符合质量标准的。但是却无法预知在哪里发生，以怎样的形式发生的失效。

服从概率分布的含义是失效可以在合理的精度范围内进行预测。比如通过可靠性或者分析得到失效率。

随机硬件失效的起因是由于物理过程，比如疲劳、物理退化或环境应力等。比如上面提到的位翻转，比如电阻的开路，短路，阻值漂移等等。

3.2. 相关失效和非相关失效

此外功能安全中还定义了相关失效和非相关失效。

相关失效是指失效同时或相继发生的概率不能表示为每个失效无条件发生概率的简单乘积。比如当失效A和失效B同时发生的概率不等于两个失效概率的乘机，用数学关系式表示为Pab =Pa*Pb，失效A和B可被定义为相关失效。反之非相关失效可以表示为每个失效无条件发生概率的简单乘积。

相关失效可以分为共因失效和级联失效。

共因失效是指在相关项中，有一个单一特定事件或根源引起的两个或多个要素的失效。如下图所示。

通过多样化的程序和硬件设计可以避免共因失效。

级联失效是指同一个相关项中，一个要素的失效引起另一个或者多个要素的失效。

比如软件的分区可以避免级联失效。实际应用过程中将level1和level2中的变量存储在不同的RAM区或NVRAM区就是一种分区的方式。

4. 硬件的故障类型

硬件故障按照故障类型可以分为如下几种，如下图所示：

(1) 安全故障：

安全故障是指某个故障的发生不会显著的增加违反安全目标的概率（ISO 26262）。安全故障可以分为两类：a) 与安全目标违背无关的故障。b) n > 2的全部n点故障（除非安全概念显示它们与安全目标的违背有关联）。

示例1：对于被EDC和循环冗余校验(CRC)保护的闪存：被EDC纠正的单位故障不通过信号指示出来。该故障对安全目标的违背得到了EDC的预防，但未通过信号指示出来。如果EDC逻辑失效，该故障被CRC探测到，系统被关闭。只有当闪存中存在单位故障、EDC逻辑失效、且CRC校验和监控失效时，才能发生对安全目标的违背（n=3）。

(2) 单点故障：

单点故障是指没有被安全机制覆盖，并且直接导致违背安全目标的故（ISO26262）。

比如电动车REESS（可充电电源储能系统）的绝缘电阻单点失效。绝缘电阻是指B级电压（一般指大于60V的高压）带电部件端子与电底盘之间的电阻。当电动汽车绝缘材料的老化破损，雨天洗车电池系统进水，车辆碰撞等等，都会导致绝缘电阻降低使人触电。正常Ri＞100Ω/Ｖ。缘电阻的降低可直接导致人触电的风险，因此这个是属于单点失效的。

(3) 残余故障：

残余故障是指发生在硬件要素中，没有被安全机制覆盖掉的那部分故障（ISO26262）残余故障的发生会直接导致安全目标的违反。比如：如果一个失效模式声明为低覆盖率为60%，那么其余的40%就是残余故障。

ISO 26262第十部分中提到了一个例子：如果仅用棋盘RAM测试的安全机制来检查随机存储器(RAM)模块，那么不能探测出某些种类的桥接故障。因这些故障导致的对安全目标的违背不能被安全机制所预防。这些故障即为残余故障。

(4) 多点故障：

多点故障是指与其他独立故障组合而导致一个多点失效的单独故障（ISO26262）。

注：一个多点故障仅在识别出多点失效后才能被辨认出来，比如通过故障树FTA的分析（ISO 26262）。其中双点故障就是两个独立的故障同时发生才会导致失效的故障。

(5) 潜伏故障：

潜伏故障是指安全机制没有探测到，且在多点故障探测时间区间间隔内不能被驾驶员察觉到的多点故障（ISO26262）

可以理解为：在一定的时间内无法检测且无法被驾驶员察觉的多点故障称为潜伏故障，比如：

A-监控芯片的失效

B-安全机制本身的失效，但是本身的功能没有出现问题。

潜伏故障是一个多点故障，与其它独立的多点故障结合在一起会直接导致安全目标的违反。