Operations

Hystrix不仅是弹性工程的一个工具，也是操作的工具。

这个页面试图分享工作中的系统的一些经验教训，这些系统具有100多种Hystrix Command类型，40多个线程池，每天有超过10亿个线程隔离和2亿多个信号量隔离的命令执行。

本页上描述的屏幕截图和事件来自Netflix API系统，代表实际生产问题或针对生产的 Latency Monkey 模拟。

如何配置和调整调用链

部署新调用链的典型方法是使用自由配置（超时/线程/信号量）将其释放到生产中，然后在看到其运行通过峰值生产周期后将其调整到更严格的配置。

在实践中，这通常看起来是：

默认情况下保留1000毫秒超时，除非知道需要更多时间。
让线程池默认为10个线程，除非知道需要更多的线程。
部署到 canary; 如果一切都很好，继续。
在生产环境运行24小时。
依靠标准的警报和监控来捕获问题（如果有的话）。
24小时后，使用延迟百分位数和流量来计算对调用链有意义的最低配置值。
在生产中即时更改值，并使用实时仪表板监控它们，直到您有信心为止。
如果调用链的特性或性能特性发生变化，并通过报警和/或仪表板监控引起您的注意，请再次查看该调用链的配置。

下图表示一个典型的思维过程，显示如何选择线程池，队列和执行超时（或信号量大小）的大小：

对于大多数调用链，您应该尝试将其超时值设置为接近正常健康系统的99.5百分位，以便它们可以截断不良请求，而不会让它们占用系统资源或影响用户行为。

您必须确定线程池和队列的大小，以便它们占总应用程序资源的很小百分比，否则它们将无法阻止依赖关系饱和可用资源。

配置和调整调用链的重要事项是：

你应该在生产中调整，并基于真实的流量模式
您可以在监视时实时地轻松调整设置，以查看不同设置的影响

预期波动和故障

Hystrix以毫秒粒度测量和报告指标。这揭示了“波动” - 看作是超时，线程池拒绝，减速和其他这样的事情的突发。在大的集群中，通常有一些事情发生在任何特定时间用于大容量调用链（cricuit）。

Hystrix捕获指标的粒度是许多软件系统没有的，因此这些报告可能会引起不必要的担心。

在来自Netflix API仪表板的截图中，您可以在生产中监视Hystrix命令，您可以在代表243个服务器的10秒统计窗口中看到显示超时和线程池拒绝的橙色和紫色数字。

大多数系统在相当高的水平上测量 - 即使分解为每分钟完成的百分位数延迟。此外，它通常对整个应用程序请求循环，而不是每个单独的依赖关系进行交互。在Hystrix，你可以得到一个更精细的视图，看看发生了什么。一旦你有放大镜，显示了每个依赖关系发生了什么，不要惊讶地看到可能以前看不见的波动。

一些原因：

客户端机器垃圾收集（你的机器在一个请求的中间进行垃圾收集）
服务机器垃圾收集（远程服务器在向其请求的中间进行垃圾收集）
网络问题
不同请求参数的不同有效负载大小
缓存未命中
满负荷的请求模式
新机器启动（部署，自动缩放事件）和“预热”

当风险潜伏时

如果你注意到网络延时，不要通过跳转重新配置的东西做出反应。如果一个Hystrix命令是卸载负载，它正在做它应该的（假设你正确配置它当它是健康的，当然 - 见上文）

在Hystrix被Netflix采用的早期，当一个调用链（我们内部称之为Hystrix [Observable] Command / CircuitBreaker配对）变成潜在的动态改变属性以增加线程池，队列，超时，等等“尝试给它一些喘息的空间”，让它再次工作。但这是你应该做的相反。如果为健康系统正确配置了命令，并且现在拒绝，超时和/或短路，那么您应该集中精力修复根本的根本原因。

不要通过给予命令更多的资源，使它可以使用（在极端如果你的行为，通过增加线程池大小，队列，超时，信号量等DDOS自己的响应错误）。

例如，假设您有一个100个服务器的集群，每个服务器具有10个允许服务的并发连接，即：1000个可能的并发连接。当健康时，它通常使用200-300他们在任何给定的时间。如果发生延迟并将其全部恢复，则现在使用1000个连接。 10每箱子似乎不太多的客户端，所以让我们尝试增加到20，对吧？很可能如果10饱和，20也将饱和。现在你打开对后端的2000个连接，将会使事情变的更糟。

这是断路器存在的原因之一 - 在基础系统上“释放压力”，让它们恢复，而不是在重试循环，挂起连接等方面更多地请求它们。

例如，这里是单个依赖性的示例，其经历延迟，导致超时足够高以致断路器在大约三分之一的集群上跳闸。它是系统中唯一具有健康问题的电路，Hystrix阻止其在遇到延迟问题时占用其他资源。