当前位置:网站首页>关于这次通信故障,我想多说几句…
关于这次通信故障,我想多说几句…
2022-07-06 10:04:00 【鲜枣课堂】
这几天,大家都在关注日本电信运营商KDDI的大规模通信故障。
这个故障影响很大,涉及到日本全境范围,共3915万用户。而且,故障持续的时间很长,差不多花了两天,才算基本恢复。
故障的具体原因,我看到很多公众号都已经写了,我就不再重复分析了。
今天这篇文章,我想把话题放大一点,和大家深入聊聊——都2022年了,为什么我们的通信网络还有这么多故障,以及,我们到底有没有终极解决方案。
█ 通信故障:一场持续百年的博弈
故障是通信网络的天然属性。就像人会生病一样,通信网络自诞生以来,就伴随着故障。或者说,我们就是在解决故障的过程中,才创造了通信网络。
贝尔老爹在解决了无数故障后,才发明了电话
一百多年来,无数的通信人,都在与故障进行坚持不懈的斗争和博弈。他们努力研发了各种技术,采用了各种手段,和通信故障抗争。
从宏观上来说,抗争的效果是显著的。在经验的不断积累下,在工艺和技术的不断进步下,通信网络发生故障的概率在不断下降。
年轻的读者可能并不知道,20多年前,固定电话拨不通(有电话的家庭都不多),和停水停电一样,是常见现象。10多年前,手机拨不通,上网上不去,也是常见现象。
近十年来,这些现象变得越来越少见。偶尔发生一次,大家反而会觉得很奇怪。网络断了,很多人的第一反应是手机坏了,或者欠费了,赶紧重启或充值。不是吗?
我们现在所处的信息社会,通信网络和水电一样,是重要的基础设施。我们的工作和生活,还有各行各业的运转,都离不开通信网络。
在这样的前提下,通信运营商作为国企,作为网络的建设和维护者,会始终把网络的安全稳定放在第一位。
针对网络稳定,工信部给运营商们设定了严格的考核指标。如果某省某市出现了网络故障,一把手肯定要担责,仕途堪忧。
运营商领导的压力,会传递到员工身上,也会传递到设备商和外包商身上。
现在市场竞争如此激烈,一旦出事,要么就是巨额的赔款,要么就是丢掉这个省的市场份额,这是设备商和外包商无法承受的损失。
所以说,整个通信行业对于通信网络的安全稳定,重视度肯定是足够的。关键,还是能力和执行的问题。
█ 通信网络的弱点,究竟在哪?
首先,我要和大家说一下通信网络的安全级别定义。
根据场景不同,通信网络的安全分为不同等级。从低到高,分别是家庭级、企业级、电信级。
通信系统的安全等级
像我们家里用的路由器什么的,都属于家庭级。这种设备的安全性可靠性很低,说坏就坏,很容易导致网络中断。
企业级呢,就是单位里面用的网络设备。根据网络规模和用户数量,企业级设备有较高的安全性可靠性,不太容易中断服务。
电信级的要求,就更高了。像移动、电信、联通,它们的网络,要为上亿的用户提供服务,绝对不允许轻易出现故障。通常来说,电信级的可靠性,要达到5个9以上的标准。
今天小枣君说的通信网络,指的就是运营商面向公众的公共通信网络,既包括蜂窝移动通信网络,也包括固网宽带网络。它们都属于电信级。
蜂窝移动通信网络和固网宽带网络的架构其实是类似的,主要区别在于接入网部分。
蜂窝移动通信网络是无线接入网,接入设备是基站。而固网宽带网络是有线接入网,接入设备是PON设备(无源光网络设备,包括光猫)。
我们就以蜂窝移动通信网络为例,进行分析。
公共通信网络,服务的是数以亿级的用户群体,所以,通常会采用金字塔级的架构,核心网为核心,传输网(承载网)为骨干,接入网为四肢。
大家一眼就能看明白,这种架构,最大的弱点,就在于核心网和传输网(尤其是骨干网)。
核心网是管理中枢,是网络的心脏和大脑,一旦挂了,就整个网络挂了。所以,核心网工程师(比如当年的我)是风险和压力最大的岗位。
核心网机房
传输网(承载网)呢,是通信网络的血管和神经。末梢还好说,坏了最多影响一小块,但是,如果心血管和脑血管坏了,怎么办?那也是彻底瘫痪。
光传输设备
这次KDDI发生的故障,还有2021年10月DoCoMo发生的故障,以及2020年英国四大运营商的故障,2020年美国CenturyLink的故障,都和核心路由器有关。说白了,就是心脑血管出了问题,整个人(网络)就瘫了。
相比之下,接入网这边出大问题的概率很低。个别基站“掉站”,最多影响几百几千人,范围很小,投诉可控。
基站设备
如果接入网出现大规模故障,那极有可能是设备商的软件版本问题,或者硬件批次问题。这种情况的概率极低。
█ 为了防范故障,通信人都做了些什么?
那么,为了保证通信网络的安全平稳运行,防范故障的发生,我们通信人都采用了哪些办法呢?
首先,是顶层架构设计的完善。
网络的架构,是网络安全之本。一个好的架构,既要考虑性能和容量,也要考虑成本,还要考虑安全和冗余。
这里请大家务必记住一点:通信设备作为一个复杂的产品,不管你怎么设计或堆料,它都存在故障的可能,只是概率高低、时间早晚的问题。
对于可能出现的故障,与其严防死守,不如重点考虑发生故障之后,该怎么办。
所以,引入备份机制,是应对故障最有效的手段。
备份机制
大家都学过“概率与统计”,1个设备出现概率的故障如果是1%,那么,两个设备同时出故障的概率,就是1%×1%=0.01%。没错吧?
为了保证绝对的安全,网络架构设计时,会采用POOL(池)组网的方式,如下图:
好几个设备共同组成池子(POOL),各自负责业务,如果有一个坏了,其它的立刻顶上,保证业务不受影响。
核心设备,通常有两个或两个以上,分别在省会城市的不同区域,物理上就离得很远。
此外,在做网络架构设计时,重要的设备网元通常会放在安全级别更高的核心机房。
核心机房
例如,移动通信网络里面最最最重要的、负责存储和管理用户数据的HSS(就是以前的HLR,里面有每个用户的手机号码、鉴权数据、业务信息等),就存放在省会城市的核心机房。同时,维护人员会定期进行数据的物理异地隔离备份。
这几年,因为地质灾害,加上战争或恐袭等因素考量,运营商甚至开始做异省份的备份。
例如,去年郑州洪灾,当时核心机房被淹,HLR退服,就紧急启用了放在邻近省份省会城市的HLR,实现业务的临时恢复。
不同的容灾级别
第二个办法,底层的主备机制。
刚才我们说的是顶层设计的冗余机制。具体到机房、机架、单板、线缆,也都有主备的设计,可以称之为底层的主备机制。
如果去过机房,你就会发现,机柜上的机框,插着各种各样的单板。而这些单板,基本上都是成对出现的。
某厂家3G设备正面外观
也就是说,某一类型的单板,通常都会有两块。
网线和光纤也是一样,你几乎看不到单根的线缆,都是成对的。
某厂家4G设备正面外观
这样做的原因,就是为了互相备份。如果某块单板坏了,那另一个单板就能继续工作,保证业务不受影响。同时,系统会进行报警,提醒工作人员尽快更换。
电源也是一样,电信机房所有机柜设备,肯定都有至少两路电源输入。
多路电源输入(一红一蓝为一路)
除了市电以为,重要机房还会设置蓄电池、UPS、发电机等应急供电设备。
机房的蓄电池组
第三,完善的管理制度和法规。
技术永远都不是影响网络安全稳定的唯一要素。对通信网络威胁最大的,其实是人,而不是技术。
对于这一点,小枣君相信每一个通信人都会有相同的感受。
在管理流程和制度方面,在工程技术规范方面,我们有过无数次血的教训。
为什么升级方案要反复评审?为什么工程规范要那么严格?为什么要建立备件仓库?为什么割接步骤要double-check,甚至triple-check?为什么重大操作后要安排值守?为什么重要节假日要封网?……
这些都是前人踩雷总结下来的经验。
对网络故障,要时刻保持敬畏之心
除了内部管理制度和流程标准之外,针对现在经常发生的通信网络蓄意破坏事件,国家也建立了越来越严格的法律法规,进行处罚。
像非法施工铲断光纤、蓄意破坏基站、剪断光纤,都将受到法律的制裁。
被恶意剪断的基站馈线
█ 通信故障背后的深层次原因
有合理的网络架构设计,有齐备的主备机制,又有完善的制度和规范,为什么还会发生这么多故障?
接下来,我来说点深层次的原因。
首先第一点,估计也是大家最认同的一点,那就是通信行业的内卷环境。
这些年,恶意竞争、低价中标盛行,设备商和分包商既要抢单,又要维持利润,只能拼命压低成本,比如产品设计成本、用料成本、施工材料成本。更主要的是,人员工资成本。
成本不断压缩,势必影响产品可靠性以及工程质量。过低的工资,导致大量经验丰富的人才流失。分包商为了完工,只能招聘应届生,简单培训(甚至没有培训)之后,派到现场干活。
这些人员缺乏必要的培训和实践,素质水平和技术能力不足,成为很大的风险点。
有些极个别素质低的,被压迫狠了,直接删库跑路,也不是没有可能。
前些年,为了确保一线员工不被克扣待遇,有厂商甚至和分包商签订合同,约束外包员工的收入底线。
除了低价竞争之外,影响网络运行安全的另一个重要因素,是不断增加的技术复杂度。
越先进的技术,复杂度越高,可靠性越低。随着技术的演进,运营商的网络规模变得越来越大,组网也越来越复杂,出现问题的概率大大增加。
通信网络的潮汐效应是非常明显的。闲时和忙时有时候会有十倍甚至百倍的差异。如果出现意外事件(灾害等),话务量激增,更可能是千倍的差异。
运营商不可能做千倍的冗余设计。所以,如果没有合理的旁路设计或阈值设计,网络出现拥塞的概率是极高的。(这几年的几次重大故障,都有信令流量拥塞的因素。)
目前运营商的复杂组网,自己都没几个人能完全看懂。时间久了,人员一流动,就更陌生了。
通信网络本来就是一门玄学,问题千奇百怪,谁敢说自己能算准每一种可能性?
第三个潜在的网络安全风险,也是小枣君最担心的风险,那就是外部的网络攻击。例如黑客、病毒和系统漏洞。
如今,通信设备基本上都IP化、云化了,网络越来越开放,也有的直接部署在公有云上,和外界的物理隔离越来越弱,比以前更容易受到攻击。
现在的攻击者,水平也比以前高很多,手段也更加多样化,对网络的威胁极大。
当然,运营商和设备商在防范网络攻击方面,投入也很大。
现在,所有厂商都关注“安全加固”这个概念。顾名思义,安全加固就是封堵系统漏洞,使得系统更加稳固。运营商会采用第三方工具,或聘请第三方厂家,对现网设备进行安全扫描,寻找安全漏洞,然后要求设备商进行整改和封堵。
一切为了安全
这种“道高一尺,魔高一丈”的博弈,会长期持续下去。
但是,小枣君个人认为,目前防御的一方,在人员安全意识、技术能力方面,都存在很大问题。后续,我们遇到的安全事件,会越来越多。
希望有关单位和部门不要把安全放在嘴边,真正花点功夫提升自己的人员素质,加强培训。不然真出了事,补救就太迟了。
█ 最后的话
日本KDDI的故障不是第一次,也肯定不是最后一次。通信网络故障,就像击鼓传花,谁也不知道自己是不是下一个。
现在,厂商们都提出要引入AI,让人工智能来接管网络,以此降低网络的故障率。也有的厂商,在网络云化的基础上,搞灰度升级(即局部升级),也能大幅降低网络风险。这些都是好的趋势。
我觉得,在与通信网络故障进行斗争的道路上,我们还有很长的路要走。路漫漫其修远兮,通信人当上下而求索。
好了,以上就是今天文章的全部内容。感谢大家的耐心阅读,我们下期再见!
谢谢!
边栏推荐
- adb常用命令
- 编译原理——预测表C语言实现
- Summary of Android interview questions of Dachang in 2022 (II) (including answers)
- It doesn't make sense without a distributed gateway
- EasyCVR接入设备开启音频后,视频无法正常播放是什么原因?
- HMS Core 机器学习服务打造同传翻译新“声”态,AI让国际交流更顺畅
- Hongmeng introduction and development environment construction
- [translation] principle analysis of X Window Manager (I)
- There is a gap in traditional home decoration. VR panoramic home decoration allows you to experience the completion effect of your new house
- Pytest learning ----- pytest confitest of interface automation test Py file details
猜你喜欢
Stealing others' vulnerability reports and selling them into sidelines, and the vulnerability reward platform gives rise to "insiders"
编译原理——预测表C语言实现
FMT开源自驾仪 | FMT中间件:一种高实时的分布式日志模块Mlog
学 SQL 必须了解的 10 个高级概念
node の SQLite
JMeter interface test response data garbled
OliveTin能在网页上安全运行shell命令(上)
EasyCVR授权到期页面无法登录,该如何解决?
The integrated real-time HTAP database stonedb, how to replace MySQL and achieve nearly a hundredfold performance improvement
Scratch epidemic isolation and nucleic acid detection Analog Electronics Society graphical programming scratch grade examination level 3 true questions and answers analysis June 2022
随机推荐
Easy introduction to SQL (1): addition, deletion, modification and simple query
Nodejs 开发者路线图 2022 零基础学习指南
一体化实时 HTAP 数据库 StoneDB,如何替换 MySQL 并实现近百倍性能提升
Hongmeng introduction and development environment construction
QT中Model-View-Delegate委托代理机制用法介绍
C语言通过指针交换两个数
微信小程序获取手机号
node の SQLite
Pyspark operator processing spatial data full parsing (4): let's talk about spatial operations first
Wordcloud colormap color set and custom colors
How to use scroll bars to dynamically adjust parameters in opencv
Grafana 9 正式发布,更易用,更酷炫了!
Spark calculation operator and some small details in liunx
Wechat applet obtains mobile number
There is a gap in traditional home decoration. VR panoramic home decoration allows you to experience the completion effect of your new house
分布式不来点网关都说不过去
78 岁华科教授逐梦 40 载,国产数据库达梦冲刺 IPO
Summary of study notes for 2022 soft exam information security engineer preparation
2022年大厂Android面试题汇总(二)(含答案)
8位MCU跑RTOS有没有意义?