时间:2021-07-01 10:21:17 帮助过:15人阅读
监控数据采集后,除了用作系统性能评估、集群规模伸缩性预测等,还可以根据实时监控数据进行风险预警,并对服务器进行失效转移,自动负载调整,最大化利用集群所有机器的资源。
系统报警
服务器运行正常的情况下,其各项监控指标基本稳定在一个特定水平,如果这些指标超过某个阈值,就意味着系统可能将要出现故障,这时候就需要对相关人员报警,及时采取措施,在故障还未真正发生就将其扼杀在萌芽状态。
监控管理系统可以配置报警阈值和值守人员的联系方式,报警方式除了邮件,即时通讯工具,还可以配置手机短信,语音报警,系统发生报警时,工程师即使在千里之外、夜里睡觉也能及时通知,迅速响应。
失效转移
除了应用程序访问失败时进行失效转移,监控系统也可以在发现故障的情况下主动通知应用,进行失效转移。
自动优雅降级
优雅降级是指网站为了应付突然爆发的访问高峰,主动关闭部分功能,释放部分系统资源,保证网站核心功能正常访问的一个手段。淘宝每年一次的双十一促销活动就属于突然爆发的非常规访问高峰,淘宝的工程师每年都会关闭一部分非核心功能,如评价、确认收货等功能,保证交易功能的正常进行。
网站在流动计算基础之上实现自动优雅降级,是网站柔性架构的理想状态:监控系统实时监控所有服务器的运行状况,根据监控参数判断应用访问负载情况,如果发现部分应用负载过高,而部分应用负载过低,就会适当卸载低负载应用部分服务器,重新安装启动部分高负载应用,使应用负载总体均衡,如果所有应用负载都很高,而且负载压力还在继续增加,就会自动关闭部分非重要功能,保证核心功能正常运行。
@李智慧 说的已经很完整了,但受邀不得不答。