时间:2021-07-01 10:21:17 帮助过:26人阅读
Application Resilience Engineering and Operations at Netflix By Ben Christensen Netflix的应用容错设计与运维 1. 随着系统规模的增大, 以及大规模SOA化的部署, 服务本身的可靠性与时延成为系统的关键问题. 2. 由于上层的服务会依赖大量的下层服务, 上层
Application Resilience Engineering and Operations at Netflix
By Ben Christensen
Netflix的应用容错设计与运维
1. 随着系统规模的增大, 以及大规模SOA化的部署, 服务本身的可靠性与时延成为系统的关键问题.
2. 由于上层的服务会依赖大量的下层服务, 上层服务的可用率与可靠性受到严重调整,假设下层服务的可用率为99.99,如果上层业务同时依赖30个下层服务,则上层的可用率为1- 30*(1-99.99%)=99.7%
3. 详细介绍了Netflix的故障容错技术, 如何通过Bulkheads/Failfast/Fail Silent等方式隔离下层的故障对上层业务的影响,如何做到优雅降级.
4. 详细介绍Netflix的监控大盘,每个组件的作用,具体的指标的处理,各种故障容错开关的状态.
Bring the Noise: Making Effective Use of a Quarter Million Metrics
By Abe Stanway
重点介绍Etsy的监控系统,
1.收集大量的metrics,
2.如何保存这么大量的metrics,
3.如何通过算法快速的找到系统中的异常(anomaly detection),skyline系统
4. 如何通过系统的算法快速有效的分析有类似异常波动的系统,oculus系统
Stop the Guessing: Performance Methodologies for Production Systems
By Brenden Gregg
Linux系统优化的方法论, 重点介绍Gregg自己发明的USE(Utilization/Saturation/Errors)
Guessing Methodologies
- 1. Traffic Light Anti-Method
- 2. Average Anti-Method
- 3. Concentration Game Anti-Method
Not Guessing Methodologies
- 4. Workload Characterization Method, 从治本的角度看,我喜欢使用这种方法,根据应用特征分析负载的来源.
- 5. USE Method, 从应急故障检测与分析来看,从处理效率角度看,这种方法很好,不过需要对Linux的系统工具有相当深入的了解/理解.
- 6. Thread State Analysis Method
Quantifying Abnormal Behavior
By Baron Schwartz
施瓦茨从Percona离开后,自己创建了一家专门做MySQL监控与故障检测的公司, 这里介绍的内容与他们的产品有一定的关联.
1. 怎样判断系统有故障? 系统挂了? 指标超出阈值?
2. 阈值带来的困惑: 误报? 该报没报? 如何决策
3. 系统发生故障的场景: 宕机/死机是叫少见的(1% Annual error Rate?), 局部故障, 以及局部故障时间积累导致的故障蔓延.
4. 故障检测技术: Shewhart Control Chart/滑动窗口/Holt-Winters预测/
5. 排队论基础的简要介绍(little’s Law,Gunter’s USL),
6. EWMA, 基于权重的指数移动平均(Load Average的计算方法),
7. 一种可能/可行的正常性指标(anomaly,是否异常?): 基于EWMA与EWMASoS打分.
A Systematic Approach to Capacity Planning in the Real World
By Bryce Yan
Twitter的性能分析与容量规划实践.
1. 容量瓶颈的可能原因,从资源角度理解,主要为: CPU/RAM/Storage(Disk IOPS/Disk Capacity)/Network(Interrupt/Bandwidth)
2. 容量的应用维度来源, 业务请求的Query Per Second/Transaction Per Second/DML Per Second/活跃用户数
3. 找出容量阈值的方法: 人为制造压力/重放线上流量/实时线上流量引流
4. 容量规划的方法论:
收集系统指标: 平均数/标准差/95%th/99%th
具体技术: 移动平均/指数移动平均(Load Average的计算公式)/相关性分析/ARIMA预测分析
Reflecting a Year After Migrating to Apache Traffic Server
By Nick Berry
LinkedIn 使用Apache Traffic Server作为CDN的使用经验.
简要介绍了LinkedIn为什么选择使用ATS.
迁移到ATS的详细过程与迁移方法
在迁移过程中遇到的哪些问题,都是如何解决的.
traffic_logstat的的内容/实现以及对于他们运维带来的好处
No related posts.
原文地址:Velocity 2013 上几个不错的主题推荐, 感谢原作者分享。