DeepFlow电信运营商5G核心网可靠性监控运维最佳实践
事件回顾:加拿大Rogers大规模断网
当地时间2021年4月18日,加拿大第一大移动通信网络运营商Rogers Wireless及旗下Fido Solutions发生超大规模断网,造成严重的社会影响。此次大规模断网事件波及加拿大全国范围及近千万用户、持续时间长、造成影响大,对Rogers带了巨大的直接经济损失和间接品牌损失,对加拿大经济产生了重大负面影响。这也是5G网络有史以来最大的事故。 此次事件产生的直接原因是5GC设备商软件升级,触发隐性软件Bug。经过分析,该事故的深层次原因是5GC NFV化,带来了核心网云网络黑盒化问题,导致5GC运维技术难度高,故障定界定责定位难度高,难以发现网元故障征兆,出现故障之后难以快速确定问题界面,难以快速确定故障源。
01 5GC运维痛点
随着CT与IT技术的融合以及5GC NFV化的发展,逐渐暴露出IT技术对通信网络可靠性的影响。云计算技术可以为通信网络带来硬件通用化、弹性化、资源池化,业务迭代加速等好处,但原有专用设备的可靠性、易维护性在新的云架构中面临巨大挑战。
在实际的5GC运维过程中,已经暴露出系统"黑盒化"、运维技术难度高、故障定责定界难、面向业务保障难等一系列挑战。
正是由于NFV化带来的网络可靠性问题和运维保障困难,各大运营商在现阶段只能退而求其次,暂缓5GC三层解耦工作,只推进硬件层解耦,或者硬件层与虚拟层、网元层厂商绑定,由5GC厂商来确保网络运行可靠性,但实际工作中,5GC厂商在对现网进行运维保障时面临与运营商同样的技术挑战和跨技术部门协同的困境。
02 DeepFlow云网络流量监控运维管理平台
DeepFlow是由云杉网络开发,面向云数据中心、用于业务可靠性保障的一款云网络流量监控运维管理平台。
DeepFlow基于云原生的软探针流量采集技术、智能流量分析技术,实现对5GC云资源池硬件层网络接口、虚拟层网络接口、VNF层网络接口的全栈流量采集和分析,搭建5GC网络智能监控分析平台。
图1 DeepFlow 5GC网络监控架构
03 方案要点
兼容性强:与各厂商5GC方案全兼容。
低资源消耗:1%的CPU资源、1%的内存资源、1‱~1%的网络带宽资源。
跨层跨域:硬件层、虚拟化层、容器层全栈流量采集和网络性能分析,准确、客观反映网元/网络状态,不依赖厂商日志。
秒级定位:智能分析、关联展现任意资源点间端到端、逐跳性能指标,实现故障秒级定界、定责、定位。
运维场景:有效支撑丢包、时延、传输层异常、应用层异常、网络风暴、信令风暴等场景的监控、运维、故障定位。
04 使用案例
2020年在某电信运营商网络云测试资源池进行了DeepFlow系统的部署,纳管宿主机、虚拟机、容器POD、IP,实现对5GC的纳管覆盖和可视化监测分析。
通过在网络云测试资源池的部署使用,充分证明了DeepFlow的产品能力,能够打开5GC云资源池"网络黑盒",实现对所有5GC网元(VNF)不同层次、不同维度的拓扑可视化及性能指标智能分析;建立面向宿主机、虚拟机、容器、5GC网元的多维度网络监测视图,建立跨硬件层、虚拟层、网元层的统一可视化监控运维能力,降低各技术专业运维难度;通过跨层的可视化能力,解决了故障快速定界、定责的难题,快速定位故障源,提升解决时效;解决业务保障、网元运维、云资源运维、网络运维的协同难题;为5GC云资源池提供针对性的安全观测手段(信令风暴、网络风暴、DDoS攻击、非法IP访问等)。
05 故障定位案例
场景1: 网元微服务DNS异常快速发现及快速定位
在使用DeepFlow系统对5GC系统进行监控运维过程中,5GC网元(VNF)的监控视图中发现PCF的"DNS异常均值"超出合理范围。
图2 PCF的"DNS异常均值"超出合理范围
在DeepFlow系统中一键快速切换到PCF的容器POD视图中,发现"cse-etcd-1"的"DNS异常均值"最高,快速锁定故障源在网元容器POD-"cse-etcd-1",指导网元运维人员介入处理故障。
图3 PCF内的某个容器POD的"DNS异常均值"超出合理范围
一键快速切换到"cse-etcd-2"的DNS日志视图,发现"cse-etcd-2"的DNS请求被DNS服务器反馈"名字错误",快速为PCF业务运维人提供了详细DNS日志用于根因分析。
图4 "cse-etcd-2"的异常DNS日志
通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在5GC VNF层,分钟级锁定出现问题的具体位置在VNF的某个具体容器POD。
场景2: 网元微服务TCP建连失败量异常快速发现及快速定位
在使用DeepFlow系统对5GC系统进行监控运维过程中,5GC网元(VNF)的监控视图中发现PCF的TCP建连失败远高于正常值(在5分钟内累计55.45K个)。
图5 PCF的TCP建连失败总量异常
一键快速切换到PCF的容器POD视图中,检查"建连—失败总量"排名,发现"vha-pod211-2"的容器POD异常,快速锁定故障源在网元容器POD-"vha-pod211-2",指导PCF网元运维人员介入处理故障。
图6 PCF的vha-pod211-2容器POD建连失败总量异常
一键快速切换到"vha-pod211-2"的流日志视图,可以发现大量的"服务端直接重置"异常,快速为网元运维人提供流量日志用于根因分析。
图7 PCF的TCP建连失败流日志
通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在5GC VNF层,分钟级锁定出现问题的具体位置在VNF的某个具体容器POD。
场景3: 虚拟机时延异常快速发现及快速定位
在Free5GC搭建的一套5GC环境中,使用DeepFlow云网络流量监控运维管理平台对5GC的全栈流量进行采集和可视化分析,通过模拟虚拟化层的故障,在虚拟机接口制造500ms的时延。
通过DeepFlow平台,在5GC VNF的可视化视图中,快速发现AMF->AUSF、AUSF->UDM链路出现HTTP时延峰值异常告警(图8步骤1)。
通过DeepFlow平台的全栈性能指标可视化视图,可以一键快速查阅AUSF->UDM全路径①-③、⑤-⑦接口的HTTP时延峰值、TCP建连客户端时延峰值、TCP建连客户端时延峰值,秒级锁定问题位置在接口⑤与接口⑥之间,即UDM的宿主机与虚机间的接口导致时延异常(图8步骤2)。
图8 虚拟机时延故障定位过程注1:①AUSF容器接口;②AUSF虚机接口;③AUSF宿主机接口;⑤UDM宿主机接口;⑥UDM虚机接口;⑦UDM容器接口注2:步骤3-5表示HTTP时延、TCP建连客户端时延、TCP建连客户端时延的全栈指标图形化解读。
通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在虚拟机层,分钟级锁定出现问题的具体位置在某台虚拟机的某个虚接口。
05 DeepFlow产品对5GC的价值
实现云资源池网络可视化,打开系统黑盒;
降低云资源池运维对各专业的技术挑战;
破解云资源池运维跨层定责定界、故障源定位难题;
提升业务运行可维护性、可靠性;
推进三层解耦的技术发展和实施落地。
广东全域低风险!市民省内出游信心持续恢复羊城晚报讯记者黎存根通讯员官键报道连日来,深圳中山珠海相继摘星,广东全域目前均为低风险地区。旅游业内人士表示,市民出游信心明显恢复,近日咨询和报名春节出行的市民有所增加。从时间上看
出行乘坐飞机成为首选,但是空姐薪资多少,你又知道吗?现在旅游已变成一种时髦的事了,不论是出国旅游还是国内旅行,最必要考虑的因素有二,其一是好的出行工具,其二就是舒适的住宿环境,这两点能大大的提高旅途的幸福感,而其二的出行的工具,现在
20张门票免费送!北京这些令人心动的神仙演出,假期去正好!喜迎新年马上就要过年啦双奥之城处处彩灯环绕火树银花,如梦似幻节日氛围浓厚长安街灯火辉煌流光溢彩沿街悬挂着红彤彤的灯笼和中国结透着浓浓的年味儿为即将来临的传统春节和北京冬奥会营造出欢
中国依法保护湿地生态来源人民网人民日报海外版云南省红河哈尼族彝族自治州弥勒市甸溪河湿地公园,流水潺潺,风光无限。张洪科摄(人民图片)2022年6月1日,中华人民共和国湿地保护法开始施行,中国湿地保护步
中国冥币热销海外,美国一张能卖到6。3元,河北村庄年产值超10亿随着我国实力的增强,中国制造也逐渐走出海外,并且还成为了展示我国实力的一张名片,想必不少人对此都深有体会,出国旅游购买纪念品时,结果发现有不少都印有中国制造的字眼,不过让人意外的是
年宵花卉加入水仙花展,一起花式过新年共青森林公园水仙花展上除了各色水仙品种还展示了丰富多样的年宵花卉使市民在隆冬时节提前感受春暖花开般的美景年宵花卉人们把花期在春节前到元宵节这一段时间的各种花卉,称为年宵花卉。以往,
陪你去旅行我想有一天和你出去旅行。去那没有去过的地方,没有行李,没有背包,不带电脑更不要手机,走一个地方停一个地方。在我心里最美好的就是和你一起老在路上,捕捉最后的流星,坐在最高的山顶上,可
国家体育总局文化和旅游部发布2022年春节假期体育旅游精品线路据文旅之声公众号,为深入贯彻党的十九大和十九届历次全会精神,全面落实健康中国国家战略,践行冰天雪地也是金山银山的发展理念,助力北京冬奥会,巩固带动三亿人参与冰雪运动的工作成果,扩大
过年不回家去哪耍?公园云花市体育场,这些地方春节不打烊春节临近,受到疫情影响,许多人选择留在工作和学习的城市过节。作为流动人口最多的大城市,北上广深等各地也纷纷推出一些文化和体育活动,在做好疫情防控工作的同时,丰富大家的假期生活。北京
春节期间本地游成旅游市场主要支撑来源央视新闻客户端根据中国旅游研究院及相关数据统计,今年春节假日期间,游客出游半径和目的地游憩距离将呈双缩减态势,在各地积极部署春节疫情防控工作的前提下,本地游市场成为国内旅游的主
喜庆过年但别忘了防火春节防火四注意出门游玩先自查,家中切莫留火患在小长假选择出游的市民,要提前对家中消防安全进行排查,不要把火灾隐患遗留在家中。出门前,一定要仔细查看电源是否关闭煤气罐管道煤气等是否关
国外旅游随笔如果有机会,相信很多人都愿意出国去领略一下异域的风情,这两年因为疫情的关系,我们不能再向以前一样方便的走出国门。我将以前出国旅游的观感整理出来,让大家跟随我的讲述游览异国他乡的风情
内蒙古的32个冷知识,奔放豪爽的地方,您了解多少1,内蒙古呼伦贝尔盟大兴安岭北麓原始森林里的驼鹿,是世界上现存最大的鹿种。成年雄驼鹿身高1米以上,身长约2米,体重500公斤以上,号称森林巨。2,西方文学史上有两个他们想象中的中国
浙江天台山藏着一处奇观,罕见的石梁飞瀑,徐霞客曾为之惊叹说起浙江天台市最著名的旅游景区,我认为非天台山莫属。天台山是国家5A级旅游景区,素以佛宗道源山水神秀享誉海内外,作为国家级重点风景名胜区,天天山间景点遍布,其中比较热门的有国清寺赤
藏在广西的一处仙境,名字粗俗却让游客向往,游客不枉此行现在已经进入今年暑期的尾声了,不少人想着趁最后的几天出发去旅行,今天给大家推荐一处广西仙境。随着我国不断的强大,富足,温饱已经不是问题,我国的许多人民都已经走向了小康家庭,逐渐开始
云游道人云游记内蒙行(一)2021年7月开始了我们今年的第三次远游,途经河南河北天津北京辽宁内蒙山西七省市,为期24天,行程6500公里。一路风景如画,令人流连忘返,醉在其中。7月5日早上从洛阳出发,下午3
人称东方夏威夷的中国醉美海岛,隐藏着超多的绝世美景中国国家地理曾评选出中国最美的十大海岛,阳江海陵岛是广东唯一入选的海岛。能在中国大小多个海岛中脱颖而出,成为十大最美之一,当然不是浪得虚名的。这座位于南海北部海域的广东第四大岛,被
杨仙岭游记从小就听了不少杨仙岭的传说,2000年以前,我一直没到那儿游览过。2001年,戎马生涯二十年转业回到家乡之后,我利用在家等待新的工作之余,常去邻近梅林镇的贡江游泳,江对岸是逶迤十几
打卡多彩贵州,阅尽无限精彩,我在贵州等你我在贵州等你都说贵州是多彩的主要体现在这几个方面一是自然风光二是民族风情三是地理环境与科技的完美结合自然风光贵州的山,此起彼伏,连绵不绝,遍布这座省份的东南西北,大山之中,隐藏着的
安徽查济古村,低调的明清古村落,鼎盛时有108座祠堂安徽皖南地区的古村落特别多,有些天下闻名,如宏村西递等,已经被列入世界文化遗产,而有一些古村落虽然看点颇多,但因为名气不大,游客很少。安徽泾县就有一座这样的古村,叫做查济古村。查济
太行大峡谷景区开售旅游半年卡中新网山西新闻8月23日电太行大峡谷景区23日发布消息称,2021年8月23日至2021年9月15日期间,该景区88元开售旅游半年卡。太行大峡谷消息显示,旅游半年卡包含桃花谷太行天
山西排名第二的博物馆,靠一座古墓成为一级博物馆,看看有多珍贵?在马且停的旅途中,每到一座城市第一时间就会来到这里的博物馆逛逛,这样可以让我很快速地去发现这座城市的人文和历史。前几天来到大同旅行,本以为大同这座城市的博物馆不会太让我惊艳,没想到