网络服务是鹏博士赖以生存的重要业务版块,一提到鹏博士,大家最先想到的也是网络服务。在普通人眼中的网络服务,也许就是家庭宽带或者企业宽带,但其实在宽带服务的背后,还有着一群默默无闻的人,在坚守自己的岗位,保证网络的安全和稳定运行。
到底什么是网络运维?他们有哪些具体的工作?在我们看不到的地方,又有着怎么样的故事?本期,我们找到了网络运营事业部的几位同事,聊聊网络背后的那些事儿……
要说网络运维工作,其实也比较简单。公司的各项业务,无论是传统的家庭宽带业务、政企专线业务,还是新兴的云网融合业务、企业数智化转型业务,都离不开公司核心网络的支撑。我们的网络运维工作,就是要保障公司核心网络的安全稳定运行。同时还要控制好网络运维成本,要用合理的成本保障网络安全平稳运行。我们的网络运维工作,主要包括这几个方面:
也就是平常大家所说的网管的主要工作,包括:对网络进行集中配置;对网络运行状况进行集中监控;对网络故障处理及施工操作进行统一调度;对网络性能、网络资源使用情况进行统计分析等。
我们的核心网络覆盖全国各地的主要城市,网络基础设施包括300多个机房、2万多公里光缆线路及大量的网络设备、电源设备等,网络的集中监控管理是由网管负责的,这些基础设施的日常维护及故障抢修等工作由各个城市的运维人员负责。
公司早期的网络,主要是为了宽带接入业务而建的,伴随宽带接入业务的发展,公司的核心网络覆盖了全国200多个城市,支撑了1400多万宽带用户的上网服务。随着市场环境的变化,公司进行战略转型,重点拓展政企业务市场。政企业务与家庭宽带业务有很大的不同,特别是在网络带宽、网络延时、可靠性、稳定性等方面要求更高,我们需要对网络结构、网络设备、光缆线路等进行优化调整,这也是我们目前的重点工作之一。
此外,为适应云网融合、企业数智化转型等行业发展趋势,我们还新建了DCI网络、SD-WAN网络。在进行网络优化时,我们要管好用好网络资源。既不能浪费,也不能制约业务的发展;既要保证网络质量,也要控制好网络成本。
建网不是目的,用网才是。用我们的网络去服务用户,为用户创造价值,为公司带来收益,这才是我们的目的。我们负责运维的是公司的核心网络资源,无论是外部客户,还是集团内部的各事业部,都是我们的用户。做好用户的服务支撑,是我们重要的工作。用户的业务需求我们要及时响应,业务的开通要快速,开通以后的网络质量要有保障,只有这样用户才能满意。
一是网络的隐患排查、处理工作。公司的核心网络覆盖全国的主要城市,300多个网络机房、几万公里的光缆线路及大量的网络设备,在长期的运行过程中,必然会存在一些影响网络正常运行、影响网络质量的问题。通过网管系统的巡检、网络性能的统计分析、对日常网络故障的分析以及组织现场维护单位进行机房及光缆线路巡检,及时发现并消除网络隐患,是网络管理部的重点工作之一。
二是网络优化工作。前面戎总也说到了,政企业务特别是目前的云网融合业务,对网络的稳定性、可靠性、延时、带宽等提出了更高的要求。为了满足这些要求,我们正在对我们的网络结构、网络设备、光缆线路以及机房等进行优化改造。
在网络结构上,将政企业务和家庭宽带业务的承载网络彻底分离。政企业务承载网做到多路由保护,设备负载及链路带宽轻载;对存在隐患的机房电力、空调等基础设施进行改造,撤销部分不达标的机房;对故障率高、径路不合理的光缆线路进行整治或替换。这些优化改造工作,一部分已经完成,一部分还在进行中。
网络故障,从故障程度来看,分成单点故障、双点故障、多点故障。我们的网络结构主要是环形的,不同业务有多个环路保护。不同故障对业务的影响不一样。
网络发生故障后,网管值班人员要在最短时间内判断故障地点和故障原因,第一时间联系当地现场负责的部门,下派工单到给指定维护人员修复网络。
在故障处理方面,网管重要的工作是要做好故障调度,一般是不参与现场物理操作的。网管主要就是负责网络监控、网络配置、网络资源调度、网络故障调度等工作。
网络故障处置流程,首先是发现故障,通过网管监控、用户申告等渠道发现故障;其次是判断故障原因和故障点,通过分析监控信息,测试验证等确认故障原因和故障点;第三步是恢复用户业务。具备条件时,采取倒代措施先恢复用户的业务;第四步是修复故障,对发生故障的网络设施进行修复;最后一步是故障分析,分析是否存在其它遗留问题,是否需要进一步对网络进行优化完善,避免类似故障重复发生。
总结起来就是:发现故障——判断故障——恢复业务——修复故障——分析故障。
服务支撑部主要面向客户,负责客户的售前技术支持、业务开通及售后服务等工作。服务支撑部设有项目经理、业务开通、服务台等工作岗位。
我是负责项目开通的项目经理,销售与客户成功签约后,由我负责协调资源、推进项目实施、对接客户沟通等,最终将完整的项目交付给客户。
负责对整个网络进行7*24小时实时监控,对全国300多个节点的电力、线缆、设备及机房的动力环境进行监控,对网络资源进行调度。出现网络故障时,对现场维护人员进行调度,跟进故障处理进度。
对网络运维人员来说,特别是核心技术骨干人员,我觉得最大的特点就是没有上下班的概念,下班也得随时准备干活。
因为,网络故障的发生时间是随机的,为减少对用户的影响,网络的施工操作一般都是安排在晚上24点以后进行,一些重要的网络操作、复杂的故障处理,需要核心技术骨干人员参与。
对罗强他们来说,“连轴转”是再常见不过的事情了。昨天可能一晚上没睡,今天还得继续干,这些事,对网络运维人员来说是常态。7*24小时在岗,可能就是网络运维最大的特点吧。
还有一点,对于网络运维工作来说,大家平常感觉到的可能只是问题,没有成绩,因为他们日常的工作就是在不断地发现问题、解决问题。也许,对他们来说,默默无闻就是最大的成绩。