电话

15169028800

【可信云大会】运维XOPs分论坛精彩回顾

标签: 网络运维必备知识 2023-05-05 

  2018年8月14-15日,由中国信息通信研究院(以下简称“中国信通院”)、中国通信学会、中国通信标准化协会共同主办的“2018可信云大会”在北京国际会议中心召开。两日内,共有5000人次参与了本届会议。

  会上公布了第十批通过可信云评估的服务名单,揭晓了2018可信云用户奖、可信云行业云奖和可信云技术创新奖获奖名单,以及最新云服务企业信用评级结果等。除了两个主会场之外,本届可信云大会还设有12个分论坛,旨在进一步探索并推动我国云计算发展,加速云计算与各行业的深度融合,促进我国云计算产业快速、健康发展。

  技术领域不断兴起的新概念总是让人应接不暇,运维(Ops)发展到今天,早就不是刀耕火种人肉运维的时代了,在自动化运维日趋完善的今天,哪里是 Ops 的明天和未来?我们给出的答案是,DevOps 和 AIOps(被统称为 XOps)。这两个大方向目前貌似是分开独立的,但实际又会最终融合。2018年8月15日下午,2018可信云大会—XOps论坛如约而至,来自国内顶尖知名企业的多位技术大咖现身说法,分享他们的先进运维技术和对运维未来的独特见解以及这些年踩过的坑。每位专家分享了长达40分钟的精彩演讲,他们是来自中国信通院云大所云计算部运维业务主管牛晓玲、高效运维社区发起人,DevOps时代联合发起人萧田国、腾讯社交网络运维总监智能运维负责人聂鑫、京东工程效率专家石雪峰,有近200位来自互联网科技等行业的从业者到场参与。

  今天的内容主要分为五个部分:第一部分是云时代下IT运维发展背景,第二个是金牌运维的标准解读,第三个是DevOps系列标准的解读,第四个是运维标准工作组的一些工作进展,第五个是下一步的工作计划。

  首先我们需要考虑一个问题,到底运维是做什么?如果你是一名运维人员,你是不是遇到过以上的这些问题。比如说有一天网站又打不开是什么原因,现在IT系统越来越复杂,怎么样管理。24小时的值班监控机房哪里出现了故障,如何快速定位,复杂的环境怎么保证,这些问题都困扰运维人员。随着信息化支撑的作用越来越凸显,企业生产管理业务活动越来越依赖运维工作。为了提升运维的精细化管理水平,保证企业运维的一个安全运行,运维现在已经变成当前通信的重要工作之一。而且企业对运维人员提出了越来越多的要求,比如说要求运维人员能力覆盖面广,综合能力强,优秀的服务意识和整合能力。

  为什么我们需要标准化?我们做标准化有五大作用。第一是互联互通。第二是安全可靠,第三是规模经济,第四是市场开放,第五是用户选择权。标准化是协商一致的过程,做标准化的时候要满足以下要素,第一是尽可能快。很多新技术出来之后没有相关标准的规范,可能会出现一个市场混乱的情况。第二是得到尽可能多的认同。只有大家认同标准,咱们一起往前走才能把标准推更远。第三个原则是相当一段时间内有效。标准涉及到多方的利益问题,它注定一开始就是意见不统一的,这很正常,因为有不同的利益驱动,不同解决方案,认知水平不同,沟通过程中的理解上的偏差导致的误解等等,都会造成标准难以成形。需最终协商一致方能形成一个标准。

  近年来在数字化转型的浪潮下,企业服务器规模越来越大,业务系统复杂程度越来越高,运维的重要性和难度也日益凸显。其实整个运维是一个演进过程,由人肉运维到了自动化运维再到DevOps,人肉运维就是凭我们的血肉铸起一个城墙或者是桥梁,但是容易倒塌。从运维的发展规律来看,主要分两步,第一是一名合格的运维人员需必备扎实的网络通信等相关知识。第二步则是自动化运维。

  新时代的运维对我们而言会有困惑,有很多同学会觉得,到底怎么落地实践。建议有两个:第一个是实施DevOps。关于DevOps,很多人会误解什么是DevOps,他可能认为会点运维工具就是DevOps,其实这只是一个最狭义的DevOps。根据预测2019年,全球财富排行榜上的80%的互联网企业都会应用DevOps,未来发展的趋势良好。第二个就是实施AIOps。AIOps是将人工总结运维规则的过程变为自动学习的过程。具体而言,是对我们平时运维工作中长时间积累形成的自动化运维和监控等能力,将其规则配置部分,进行自学习的“去规则化”改造,最终达到终极目标:“有AI调度中枢管理的,质量、成本、效率三者兼顾的无人值守运维,力争所运营系统的综合收益最大化”。“学件”是运维踏进AIOps领域的敲门砖,学件,亦称AI运维组件,类似程序中的API或公共库,但API及公共库不含具体业务数据,只是某种算法,而AI运维组件(或称学件),则是在类似API的基础上,兼具对某个运维场景智能化解决的“记忆”能力,将处理这个场景的智能规则保存在了这个组件中。这个智能规则是在一定量的数据下学习而来的,且具有“可重用”,“可演进”,“可了解”的特性,既可共享由专家利用数据训练的算法,又可保护数据和隐私。

  腾讯运维,十年来最重要的一件事情就是建立规则和秩序,其中又可以分成几个阶段,包括:交付-组件-架构-监控;而近两年来最重要的事情就是智能化。

  第一个是交付标准。腾讯SNG在十年前运维主导了交付标准,包括PKG包管理、CMDB配置管理、CC配置管理、ARS发布等一系列交付标准被严格执行,确保了十年来的研发和运维的效率与质量。而大家经常听到的自动化运维无非是标准交付的一种技术实现。

  第二个是组件的规范。简单理解很像2000年前的“书同文、车同轨”,一个业务进入规模化甚至海量后,这是必然之路。近些年火灾比过去少了很多,我认为是更加重视灾害的危险而加大了在城市建设阶段的消防考虑和要求。而作为救火队员的运维在产品业务建设初期参与架构规划也是减少后期运维灾难的重要手段。15年“天津大爆炸”事件,腾讯运维在无感知的情况下将7000万QQ用户迁移出天津机房,就是运维参与架构建设带来的业务能力提升。这也是运维建设的最重要的阶段之一,也是持续时间最长的一个阶段。

  第三个是监控。贯穿运维建设全程的一个阶段,这几年的大数据和机器学习让监控成为了运维技术的新方向。监控上的飞跃让整个运维技术上了一个新台阶。

  第四个是智能化。运维是在解决各种场景下的问题,智能化技术是一些新手段帮助运维解决过去解决不了的问题,我认为能利用好这个技术手段解决问题的就算是智能运维了。在智能运维领域较早的可以追溯到12年左右。比如:ROOT:基于业务架构的链路关联算法;DLP:业务核心生死指标;大数据:通过机器有监督学习的方式来优化告警;全链路:利用海量数据关系来拓展纬度。

  可信云大会举办这些年来,云计算迅猛发展,从云计算发展报告中也能看到,整个云计算行业的发展趋势依然向好,其中孕育了巨大的变革。对于我们来说,已经谈了很多理念、方法,但最终还是想通过一些具体的工具或者说技术方法帮助大家实现真正落地。面对目前这样一个云原生应用时代,DevOps、持续交付、容器和微服务是典型的代表。这一波技术变革迅猛无比又异常深刻,更重要的是不仅仅局限于单一领域,而是涉及基础设施,软件架构,部署发布方式,研发过程,组织文化等,彼此独立又互相推动,裹挟着行业向前发展。同时新技术层出不穷。技术人员需要不断学习,同业务发展速度赛跑,这就是我们在云原生应用时代所面临的真正的挑战。

  云原生应用架构基本上符合这种模式,包括微服务,API,消息队列,缓存和分布式数据库,面对这种全新的应用架构,我们的选择非常多,包括各种各样的开源商业工具,公有云、私有云和混合云,伴随冗余建设的基础设施,高度人员能力依赖的解决方案,大量的评估和研究成本在里面,以及组织内部的高度差异化,而这并非核心价值所在,所以平台就有了存在的意义。

  基于此Kubernetes应运而生,它是一个改变世界的工具。随着Kubernetes项目的不断成熟,它为我们解决了很多云原生应用时代的难题,比如服务发现、滚动升级、弹性集群、资源管理、调度编排等等。同时Kubernetes也构建了自己的完整的生态系统从而实现了云原生应用时代的弯道超车。在这个生态系统中包括了云基础设置服务、日志监控、管理,安全等等,但唯独缺少的就是持续交付能力平台,那么如何解决这一问题,答案就在Jenkins X。

  Jenkins X是什么?简单用一句话描述,我们认为Jenkins X是Kubernetes原生的CI/CD解决方案,用于云原生应用的快速开发和部署。我们想解决的问题是为Kubernetes生态系统建立原生的CI/CD平台,复用Jenkins自身能力,简化整个云原生应用的开发,部署,运行过程。所以Jenkins X是基于Kubernetes,这是它的核心价值,另外它更面向云原生应用更适合复杂的应用架构下的系统开发。同时,石雪峰专家还详细介绍了Jenkins X和原生Jenkins的关系以及Jenkins核心特征、工作流程、核心组建及安装步骤等精彩内容。返回搜狐,查看更多