博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《CCNP TSHOOT(642-832)学习指南》一1.2 维护进程及维护流程
阅读量:6871 次
发布时间:2019-06-26

本文共 5408 字,大约阅读时间需要 18 分钟。

本节书摘来异步社区《CCNP TSHOOT(642-832)学习指南》一书中的第1章,第1.2节,作者: 【美】Amir Ranjbar 译者: 夏俊杰, 更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.2 维护进程及维护流程

CCNP TSHOOT(642-832)学习指南

网络维护包括很多任务,某些任务是通用性的,而其他任务则是与各个企业组织息息相关的特殊任务。像维护规划、变更管理、文档编制、灾难恢复和网络监控等任务都属于通用网络维护任务。为了制定符合企业组织需求的维护流程,网络工程师必须做到:

  • 确定基本的网络维护任务;
  • 承认并描述计划维护的好处;
  • 评估影响变更管理流程的关键性决定因素,以创建满足企业需求的流程;
  • 描述网络文档的基本要素及其功能;
  • 制定有效的灾难恢复计划;
  • 描述网络监控和性能测量的重要性,并作为主动式网络维护策略的有机组成部分。

1.2.1 确定网络维护任务

无论选择了何种网络维护模型和维护方法或者网络规模的大小如何,在制定网络维护计划时都必须包含某些必需的网络维护任务,只不过不同规模的网络以及不同的企业组织,在这些维护任务上花费的资源、时间和成本有所不同而已。所有的网络维护计划都应该包含以下基本维护任务。

  • 提供增加、移动和变更操作:网络通常总是处于经常性的变化之中,随着用户的移动以及办公室的变更和重新调整,网络设备(如计算机、打印机和服务器)也可能需要进行移动,也就可能需要更改网络配置和系统布线,这些增加、移动和变更操作都是正常网络维护工作的一部分。
  • 安装和配置新设备:该维护任务包括增加设备端口、链路容量或网络设备等。请注意,在网络中实施新技术或安装、配置新设备时,可能由企业组织内部的其他部门来负责实施,也可能由第三方或内部员工来实施。
  • 替换故障设备:无论替换故障设备的工作是由专门的服务提供方来完成还是由支持工程师来完成,这都是网络维护任务中的一项重要内容。
  • 备份设备配置和软件:该维护任务与替换故障设备有关,如果没有做好软件和配置信息的备份工作,那么替换故障设备或解决严重设备故障都将花费大量时间。
  • 检测和排除链路及设备故障:由于网络故障是不可避免的,因而与网络组件、链路或服务提供商中继连接有关的故障诊断与排除都是网络工程师的基本工作内容。
  • 软件升级或打补丁:网络维护工作要求网络工程师必须时刻了解各种可用的软件升级程序或软件补丁,并在需要时进行升级,这是因为软件升级或打补丁解决的常常是关键性的性能问题或安全漏洞问题。
  • 网络监控:监控网络中的设备及用户操作行为也是网络维护计划的一部分,在实际应用中,既可以通过收集路由器和防火墙日志这样的简单方式来完成网络监控任务,也可以采用复杂的网络监控系统来完成该任务。
  • 性能测量及容量规划:由于网络的带宽需求是持续增加的,因而在网络维护任务中至少要包括基本的性能测量工作,以确定何时该升级中继链路或网络设备,从而保证相应的网络投资的合理性。这种主动性的网络维护方法可以在网络出现瓶颈、出现拥塞或出现故障之前做好相应的升级计划(容量规划)。
  • 编制和更新网络文档:对大多数企业组织来说,编制正确的网络文档以描述当前网络状态,从而为网络实施、管理及故障检测与排除工作提供参考依据,是一项强制性的网络维护任务,要求必须保持网络文档的时效性。

1.2.2 网络维护规划

必须为网络维护任务制定相应的维护步骤和维护流程,这项工作被称为网络维护规划,网络维护规划工作包括以下内容。

  • 制定维护计划。
  • 制定变更控制流程。
  • 建立网络文档编制流程。
  • 建立有效的通信机制。
  • 定义模板/流程/约定。
  • 制定灾难恢复计划。

1.制定维护计划

在确定了网络维护任务及维护进程之后,需要分配相应的优先级,确定哪些任务属于故障驱动型任务(如硬件故障、失效等),哪些任务属于长期维护任务(如软件更新、备份等)。对长期维护任务来说,需要制定相应的维护计划,以保证周期性地按时完成这些维护任务,而不至于被日常忙碌的工作所耽搁。对某些迁移及变更操作来说,可以采取故障驱动(接到变更请求)型流程和计划流程相结合的维护方法:如果变更请求无需立即处理,那么就可以在下次维护计划执行时予以处理,这样不但可以正确处理维护工作的优先级问题,而且还可以让变更请求者知道何时可以执行变更操作。在制定维护计划时,应该将可能会引起网络中断的维护任务放到下班时间,可以将这些维护任务的执行时间选定为用户可接受的晚上或周末,这样就可以在上班时间内尽可能地减少不必要的网络中断,从而可以提升网络正常工作时间并减少计划外网络中断的次数及时长。总的说来,制定维护计划的好处有以下几点。

  • 减少网络宕机时间。
  • 不会忽视或遗忘长期维护任务。
  • 可以预测变更请求的交付时间。
  • 通过在指定的维护窗口内执行中断型网络维护任务,可以大大减少上班时间内的宕机时间。

2.制定变更控制流程

在网络维护工作中,可能经常会碰到网络配置、软件或硬件的变更需求,由于对网络做出任何变更都可能会因为错误、冲突或程序缺陷而产生相应的网络故障风险,因而在执行任何变更操作之前,必须首先确定该变更请求可能会对网络产生的影响,并在该变更请求的影响与急迫性之间做出平衡。如果预期风险较高,那么就得谨慎评估该变更请求的合理性并得到相应的执行授权。通常会将风险较高的变更操作放在特定的维护窗口内执行。此外,还必须制定紧急变更流程,例如,如果网络中出现了广播风暴,可能需要中断某链路以切断网络环路,以保证网络的稳定运行,那么此时就不能等待授权或等到下次维护窗口。对大多数企业组织来说,变更控制都是解决以下问题。

  • 哪些类型的变更请求需要获得授权,由谁来批准执行这些变更操作?
  • 哪些变更必须在维护窗口内执行,哪些变更必须立即执行?
  • 在执行变更操作前需要做好哪些准备工作?
  • 需要执行哪些验证操作以证实变更操作成功?
  • 在变更操作成功后还需要执行哪些操作(如更新网络文档)?
  • 在变更操作出现非期望结果或出现问题时应该采取哪些操作?
  • 什么情况下可以跳过哪些正常的变更流程,哪些流程是必须遵守的?

3.建立网络文档编制流程

建立网络文档并保持网络文档的时效性是任何网络维护工作都必不可少的一项内容,如果不能保证网络文档的时效性,那么就很难正确规划和实施网络变更操作,故障检测与排除工作也将困难重重、费时费力。一般来说,编制网络文档属于网络设计和网络实施工作的一部分,而保持网络文档的时效性则是网络维护工作的一部分,因而,任何好的变更控制流程中都会包括在执行变更操作后及时更新相关网络文档的要求。简单的文档可以仅包括网络拓扑结构图、设备和软件列表以及所用设备的当前配置数据等内容,复杂的网络文档则可以包含很多内容,包括描述所有已实施的功能特性、所做出的设计决策、服务合同号、变更流程等信息。典型的网络文档包括以下内容。

  • 网络拓扑结构图:包括网络的物理和逻辑结构图。
  • 连接文档:列出所有相关的物理连接,包括临时性的连接、去往服务提供商的中继链路以及电源连接情况等。
  • 设备列表:列出所有设备的零件编号、序列号、已安装的软件版本、软件许可(如果适用的话)、保修/服务信息等内容。
  • IP地址管理:列出IP子网编址方案以及所有在用的IP地址。
  • 配置信息:包括所有设备的当前配置,甚至可以包括设备先前所有的配置归档信息。

网络设计文档:记录在设计网络时做出最终实施决策的出发点和原因。

4.建立有效的通信机制
网络维护工作通常是由一组人共同完成的,很难细分为可以供每个人独立完成的任务集,即使企业内拥有某方面技术或某些类型设备的专家,他们也必须与其他不同技术或其他不同设备的团队成员进行沟通。虽然最好的沟通机制与具体的企业组织及环境有关,但是在选择沟通方式时必须考虑的一个重要因素就是如何简单地记录沟通情况并与网络维护团队进行共享。

有效的沟通机制对故障检测与排除以及技术支持来说至关重要。在检测和排除网络故障时,必须回答以下问题。

  • 变更操作是由谁在何时执行的?
  • 变更操作对其他方面的影响是什么?
  • 测试结果是什么以及可以得出什么结论?

如果网络维护团队之间没有沟通上述变更操作、测试结果以及结论,那么执行不同维护进程的团队成员之间将会产生不良影响,没有人愿意在解决一个故障的同时又同时产生了另一个故障。

在很多情况下,故障诊断和故障排除通常是由很多人共同完成或者是在多个时间段内完成的,此时就必须详细记录相应的操作、测试、沟通及结论,而且必须分发给所有参与到故障诊断和故障排除的人员手中。有了良好的沟通机制,团队中的其他成员才能轻松地承接其他成员离开后的工作。当然,在排除网络故障或实施完变更操作之后也必须进行相应的沟通。

5.定义模板/流程/约定(标准化)

当维护团队执行相同的维护任务或相关联的维护任务时,很重要的一点就是必须始终如一地执行这些任务,这是因为每个人都可能会有自己的工作方法、工作方式及工作背景,只有标准化才能保证不同的人在执行相同维护任务时的一致性,即便对同一项维护任务来说只有两种维护方法,那么也极有可能会产生两种不同的结果。让维护过程标准化并确保维护人员按照统一的方式执行维护任务的一种方法就是定义并编制维护流程,该过程就被称为标准化。定义并使用模板是一种有效的网络文档编制方法,有助于创建一致性的网络维护过程。下面列出了在编制网络约定、模板及最佳实践(即标准化)等文档时必须回答的相关问题。

  • 日志及调试时间戳是设置为本地时间还是UTC(Universal Time Coordinated,协调世界时)?
  • 访问列表的末尾需要显式指定“deny any”吗?
  • 在一个IP子网中,是将第一个还是最后一个有效IP地址分配给本地网关?

在很多情况下,可以采取多种配置方式让同一台设备实现相同的结果,但是对同一个网络来说,使用不同的方法来实现相同的结果可能会产生混乱,特别是在故障检测与排除进程中尤其如此。在排障过程中,排障人员的大量宝贵时间都会被浪费在验证各种配置数据上,原因就是采取了多种配置方式而且均要假定这些配置都是不正确的。

6.制定灾难恢复计划

虽然现如今某些网络设备的MTBF已声称可以达到5年、7年、10年甚至更长时间,但网络工程师仍然必须考虑设备出现故障的可能性。针对故障情况制定相应的实施计划,让大家知道该怎么做,可以极大地降低网络宕机时间。降低故障影响的一种方法就是在网络的关键位置引入冗余机制以消除单点故障。单点故障意味着单台设备或单条链路没有任何备份,一旦出现故障将会给网络运行造成重大损害。但是在实际应用中,由于受到预算限制,很难做到让每条链路、每个组件、每台设备都实现冗余化,因而必须考虑网络灾难问题,例如,需要考虑服务器机房可能因火灾或洪水而引发的灾难,替换故障设备、恢复正常功能的速度越快,网络恢复运行的速度也就越快。在替换故障设备时,应准备好:

  • 供替换的硬件;
  • 设备的当前软件版本;
  • 设备的当前配置;
  • 将软件及配置安装到新设备上的工具;
  • 软件许可(如果适用的话);
  • 了解软件、配置及软件许可的安装流程。
  • 上述事项中的任何一项没有做到都会严重影响故障设备的替换时间。为了保证在需要时可以随时使用上述事项,建议遵循以下指南。

供替换的硬件:可以提前准备好备件或者与供货商或厂商签订好替换故障硬件的服务合同,此时就需要详细记录设备的零件编号、序列号以及服务合同号等信息。

设备的当前软件版本:通常来说,设备交货时都会运行特定版本的软件,但是该软件版本可能与设备上运行的软件版本并不一致,因而必须建立一个知识库,以存储网络中的所有当前软件版本。
设备的当前配置:除了在执行变更操作之后创建配置备份之外,还要拥有一套清晰的版本控制系统,以明确什么配置才是最新配置。
将软件及配置安装到新设备上的工具:需要拥有适宜的工具将软件及配置安装到新设备上,要保证在网络不可用时也能使用该工具。
软件许可:如果所要安装的软件需要软件许可,那么就需要拥有该软件许可,或者知道该如何获取新的软件许可。
了解软件、配置及软件许可的安装流程:由于平时很少使用这类流程,因而可能印象不深,但是随时准备好各种必需的网络文档,不但能节省执行流程的时间,而且还能大大降低出错的风险。
简而言之,保证灾难恢复成功的关键因素就是要定义并记录灾难恢复流程,并保证在遇到灾难时各种必需事项的随时可用性。

1.2.3 网络监控和性能测量

另一种有助于减少故障驱动型任务、提高系统化维护方法的策略就是进行网络和性能监控。理想情况下,大家都希望在故障出现之前发现潜在的问题,并且能在故障出现后更快地隔离故障。通过收集网络的性能数据,可以在因网络资源不足而演变为网络故障之前进行网络升级,而且还有助于进行网络升级的投资立项。如果企业组织对网络的SLA性能提出了要求或者服务提供商与企业组织签订了相应的服务等级协定,那么收集网络性能数据都将有助于确定是否满足了这些SLA。

测量和监控网络性能的一个基本步骤就是选择待监控和待测量对象,包括网络设备的接口状态、接口负荷、CPU负荷以及内存利用率等,此外还可以在网络监控和性能测量策略中纳入一些复杂的测量对象,如网络时延、抖动及丢包。对每个企业组织来说,其网络性能测量和监控策略会有所不同,关键是要满足其商业运行需求。

转载地址:http://etvfl.baihongyu.com/

你可能感兴趣的文章
WinAPI: SetWindowText - 设置窗口标题
查看>>
"Base SDK Missing"问题的解决
查看>>
自动安装svn服务端
查看>>
Maven私服 Nexus的搭建
查看>>
EL表达式和JSTL标签(简短版)
查看>>
web 日志分析工具 awstats 简单安装
查看>>
mysql性能测试工具之tpcc-mysql
查看>>
CentOS6.6下解压安装mysql-5.7.10-linux-glibc2.5-i686.tar.gz
查看>>
Linux下内核优化
查看>>
java中list和arrayList区别
查看>>
nginx安装记录(2015-5-14)
查看>>
oracle 11g 基础实践1
查看>>
Apache CXF之初探
查看>>
运维常用数据库
查看>>
Linux系统中查看系统版本
查看>>
探讨SQL语句技巧 优化DB2应用程序性能
查看>>
互联系网的超速发展:微信营销的崛起
查看>>
第二节:python中文乱码
查看>>
H3C设备之静态缺省路由
查看>>
day-20: 安装软件包及rpm yum的介绍
查看>>