本文共 5408 字,大约阅读时间需要 18 分钟。
本节书摘来异步社区《CCNP TSHOOT(642-832)学习指南》一书中的第1章,第1.2节,作者: 【美】Amir Ranjbar 译者: 夏俊杰, 更多章节内容可以访问云栖社区“异步社区”公众号查看。
CCNP TSHOOT(642-832)学习指南
网络维护包括很多任务,某些任务是通用性的,而其他任务则是与各个企业组织息息相关的特殊任务。像维护规划、变更管理、文档编制、灾难恢复和网络监控等任务都属于通用网络维护任务。为了制定符合企业组织需求的维护流程,网络工程师必须做到:无论选择了何种网络维护模型和维护方法或者网络规模的大小如何,在制定网络维护计划时都必须包含某些必需的网络维护任务,只不过不同规模的网络以及不同的企业组织,在这些维护任务上花费的资源、时间和成本有所不同而已。所有的网络维护计划都应该包含以下基本维护任务。
必须为网络维护任务制定相应的维护步骤和维护流程,这项工作被称为网络维护规划,网络维护规划工作包括以下内容。
1.制定维护计划
在确定了网络维护任务及维护进程之后,需要分配相应的优先级,确定哪些任务属于故障驱动型任务(如硬件故障、失效等),哪些任务属于长期维护任务(如软件更新、备份等)。对长期维护任务来说,需要制定相应的维护计划,以保证周期性地按时完成这些维护任务,而不至于被日常忙碌的工作所耽搁。对某些迁移及变更操作来说,可以采取故障驱动(接到变更请求)型流程和计划流程相结合的维护方法:如果变更请求无需立即处理,那么就可以在下次维护计划执行时予以处理,这样不但可以正确处理维护工作的优先级问题,而且还可以让变更请求者知道何时可以执行变更操作。在制定维护计划时,应该将可能会引起网络中断的维护任务放到下班时间,可以将这些维护任务的执行时间选定为用户可接受的晚上或周末,这样就可以在上班时间内尽可能地减少不必要的网络中断,从而可以提升网络正常工作时间并减少计划外网络中断的次数及时长。总的说来,制定维护计划的好处有以下几点。2.制定变更控制流程
在网络维护工作中,可能经常会碰到网络配置、软件或硬件的变更需求,由于对网络做出任何变更都可能会因为错误、冲突或程序缺陷而产生相应的网络故障风险,因而在执行任何变更操作之前,必须首先确定该变更请求可能会对网络产生的影响,并在该变更请求的影响与急迫性之间做出平衡。如果预期风险较高,那么就得谨慎评估该变更请求的合理性并得到相应的执行授权。通常会将风险较高的变更操作放在特定的维护窗口内执行。此外,还必须制定紧急变更流程,例如,如果网络中出现了广播风暴,可能需要中断某链路以切断网络环路,以保证网络的稳定运行,那么此时就不能等待授权或等到下次维护窗口。对大多数企业组织来说,变更控制都是解决以下问题。3.建立网络文档编制流程
建立网络文档并保持网络文档的时效性是任何网络维护工作都必不可少的一项内容,如果不能保证网络文档的时效性,那么就很难正确规划和实施网络变更操作,故障检测与排除工作也将困难重重、费时费力。一般来说,编制网络文档属于网络设计和网络实施工作的一部分,而保持网络文档的时效性则是网络维护工作的一部分,因而,任何好的变更控制流程中都会包括在执行变更操作后及时更新相关网络文档的要求。简单的文档可以仅包括网络拓扑结构图、设备和软件列表以及所用设备的当前配置数据等内容,复杂的网络文档则可以包含很多内容,包括描述所有已实施的功能特性、所做出的设计决策、服务合同号、变更流程等信息。典型的网络文档包括以下内容。网络设计文档:记录在设计网络时做出最终实施决策的出发点和原因。
4.建立有效的通信机制网络维护工作通常是由一组人共同完成的,很难细分为可以供每个人独立完成的任务集,即使企业内拥有某方面技术或某些类型设备的专家,他们也必须与其他不同技术或其他不同设备的团队成员进行沟通。虽然最好的沟通机制与具体的企业组织及环境有关,但是在选择沟通方式时必须考虑的一个重要因素就是如何简单地记录沟通情况并与网络维护团队进行共享。有效的沟通机制对故障检测与排除以及技术支持来说至关重要。在检测和排除网络故障时,必须回答以下问题。
如果网络维护团队之间没有沟通上述变更操作、测试结果以及结论,那么执行不同维护进程的团队成员之间将会产生不良影响,没有人愿意在解决一个故障的同时又同时产生了另一个故障。
在很多情况下,故障诊断和故障排除通常是由很多人共同完成或者是在多个时间段内完成的,此时就必须详细记录相应的操作、测试、沟通及结论,而且必须分发给所有参与到故障诊断和故障排除的人员手中。有了良好的沟通机制,团队中的其他成员才能轻松地承接其他成员离开后的工作。当然,在排除网络故障或实施完变更操作之后也必须进行相应的沟通。
5.定义模板/流程/约定(标准化)
当维护团队执行相同的维护任务或相关联的维护任务时,很重要的一点就是必须始终如一地执行这些任务,这是因为每个人都可能会有自己的工作方法、工作方式及工作背景,只有标准化才能保证不同的人在执行相同维护任务时的一致性,即便对同一项维护任务来说只有两种维护方法,那么也极有可能会产生两种不同的结果。让维护过程标准化并确保维护人员按照统一的方式执行维护任务的一种方法就是定义并编制维护流程,该过程就被称为标准化。定义并使用模板是一种有效的网络文档编制方法,有助于创建一致性的网络维护过程。下面列出了在编制网络约定、模板及最佳实践(即标准化)等文档时必须回答的相关问题。在很多情况下,可以采取多种配置方式让同一台设备实现相同的结果,但是对同一个网络来说,使用不同的方法来实现相同的结果可能会产生混乱,特别是在故障检测与排除进程中尤其如此。在排障过程中,排障人员的大量宝贵时间都会被浪费在验证各种配置数据上,原因就是采取了多种配置方式而且均要假定这些配置都是不正确的。
6.制定灾难恢复计划
虽然现如今某些网络设备的MTBF已声称可以达到5年、7年、10年甚至更长时间,但网络工程师仍然必须考虑设备出现故障的可能性。针对故障情况制定相应的实施计划,让大家知道该怎么做,可以极大地降低网络宕机时间。降低故障影响的一种方法就是在网络的关键位置引入冗余机制以消除单点故障。单点故障意味着单台设备或单条链路没有任何备份,一旦出现故障将会给网络运行造成重大损害。但是在实际应用中,由于受到预算限制,很难做到让每条链路、每个组件、每台设备都实现冗余化,因而必须考虑网络灾难问题,例如,需要考虑服务器机房可能因火灾或洪水而引发的灾难,替换故障设备、恢复正常功能的速度越快,网络恢复运行的速度也就越快。在替换故障设备时,应准备好:供替换的硬件:可以提前准备好备件或者与供货商或厂商签订好替换故障硬件的服务合同,此时就需要详细记录设备的零件编号、序列号以及服务合同号等信息。
设备的当前软件版本:通常来说,设备交货时都会运行特定版本的软件,但是该软件版本可能与设备上运行的软件版本并不一致,因而必须建立一个知识库,以存储网络中的所有当前软件版本。设备的当前配置:除了在执行变更操作之后创建配置备份之外,还要拥有一套清晰的版本控制系统,以明确什么配置才是最新配置。将软件及配置安装到新设备上的工具:需要拥有适宜的工具将软件及配置安装到新设备上,要保证在网络不可用时也能使用该工具。软件许可:如果所要安装的软件需要软件许可,那么就需要拥有该软件许可,或者知道该如何获取新的软件许可。了解软件、配置及软件许可的安装流程:由于平时很少使用这类流程,因而可能印象不深,但是随时准备好各种必需的网络文档,不但能节省执行流程的时间,而且还能大大降低出错的风险。简而言之,保证灾难恢复成功的关键因素就是要定义并记录灾难恢复流程,并保证在遇到灾难时各种必需事项的随时可用性。另一种有助于减少故障驱动型任务、提高系统化维护方法的策略就是进行网络和性能监控。理想情况下,大家都希望在故障出现之前发现潜在的问题,并且能在故障出现后更快地隔离故障。通过收集网络的性能数据,可以在因网络资源不足而演变为网络故障之前进行网络升级,而且还有助于进行网络升级的投资立项。如果企业组织对网络的SLA性能提出了要求或者服务提供商与企业组织签订了相应的服务等级协定,那么收集网络性能数据都将有助于确定是否满足了这些SLA。
测量和监控网络性能的一个基本步骤就是选择待监控和待测量对象,包括网络设备的接口状态、接口负荷、CPU负荷以及内存利用率等,此外还可以在网络监控和性能测量策略中纳入一些复杂的测量对象,如网络时延、抖动及丢包。对每个企业组织来说,其网络性能测量和监控策略会有所不同,关键是要满足其商业运行需求。
转载地址:http://etvfl.baihongyu.com/