SpringCloud学习笔记（十一）Sentinel微服务保护

1.1初识Sentinel

1.1.1 雪崩问题及解决方案

雪崩：微服务调用链路中的某个服务故障，引起整个链路中的所有微服务都不可用。

例如：在同步调用场景下，服务A需要调用服务D，但D崩了，当依赖D的请求越来越多时会占用过多tomcat连接数等资源，导致服务A崩，则同理依赖于服务A的其他服务也会逐级崩掉。

解决方案：

常见四种解决雪崩问题的方案：

超时处理
- 设定超时时间，请求超过一定时间没有响应就返回错误信息，不会无休止等待
- 只能缓解，如果请求增加速度高于请求释放速度仍然会导致雪崩
舱壁模式：
- 限定每个业务能使用的线程数，避免耗尽整个tomcat的资源，因此也叫线程隔离
- 浪费资源
熔断降级
- 由断路器统计业务执行的异常比例，如果超出某个阈值则会熔断该业务，拦截访问该业务的一切请求
- 若服务恢复，需要等熔断自动关闭或手动重置才能重新访问服务
流量控制
- 限制业务访问的QPS（每秒查询率），避免服务因流量的突增而故障

1.1.2 服务保护技术对比

在限制的手段上，Sentinel 和 Hystrix 采取了完全不一样的方法。 Hystrix

线程池隔离对依赖（在 Sentinel 的概念中对应资源）进行隔离，这样做的好处是资源和资源之间做到了最彻底的隔离。缺点是除了增加了线程切换的成本（过多的线程池导致线程数目过多），还需要预先给各个资源做线程池大小的分配。

Sentinel

通过并发线程数进行限制和资源池隔离的方法不同，Sentinel 通过限制资源并发线程的数量，来减少不稳定资源对其它资源的影响。这样不但没有线程切换的损耗，也不需要您预先分配线程池的大小。当某个资源出现不稳定的情况下，例如响应时间变长，对资源的直接影响就是会造成线程数的逐步堆积。当线程数在特定资源上堆积到一定的数量之后，对该资源的新请求就会被拒绝。堆积的线程完成任务后才开始继续接收请求。
通过响应时间对资源进行降级除了对并发线程数进行控制以外，Sentinel 还可以通过响应时间来快速降级不稳定的资源。当依赖的资源出现响应时间过长后，所有对该资源的访问都会被直接拒绝，直到过了指定的时间窗口之后才重新恢复。

1.1.3 Sentinel介绍

Sentinel是阿里巴巴开源的一款微服务流量控制组件，官网

Sentinel分为两个部分：

核心库（Java客户端），不依赖任何框架/库，能够运行于所有Java运行时环境
控制台（Dashboard），基于Spring Boot开发，打包后可以直接运行，不需要额外的Tomcat等应用容器

特征：

丰富的应用场景：如秒杀（突发流量控制在系统容量可以承受的范围）、消息削峰填谷、集群流量控制、实时熔断下游不可用应用等
完备的实时监控：Sentinel控制台可以看到接入应用的单台机器秒级数据，也可查看500台以下规模的集群的汇总运行情况
广泛的开源生态：提供开箱即用的与其他开源框架/库的整合模块，eg.SpringCloud、Dubbo、gRPC的整合
完善的SPI扩展点：Sentinel提供简单易用、完善的SPI扩展接口，开源通过扩展接口快速定制逻辑eg定制规则管理、适配动态数据源

安装Dashboard

1.GitHub下载sentinel-dashboard-x.x.x.jar

2.在jar包所在目录执行命令

 # 需要jdk1.8以上版本，默认启动端口8080
 java -jar sentinel-dashboard-x.x.x.jar

3.访问localhost:8080进入控制台，默认账号密码都是sentinel.

 # 添加-D，指定要修改的参数即可
 java -jar sentinel-dashboard-x.x.x.jar -Dserver.port=8090
 # 也可以在jar包下写一个yml文件覆盖默认配置

此时sentinel控制台中什么都没有，在微服务中配置sentinel可以让其监控对应的微服务，具体步骤如下。

1.1.4 微服务整合Sentinel

导入cloud-demo项目

1.引入sentinel依赖

 <!--order-service的pom.xml-->
 <dependency>
     <groupId>com.alibaba.cloud</groupId>
     <artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
 </dependency>
 
 <!--如果导入依赖有问题就换下仓库源，pom中添加下面内容-->
 <repositories>
     <repository>
         <id>aliyun-public</id>
         <url>https://maven.aliyun.com/repository/public</url>
     </repository>
 </repositories>

2.配置控制台地址（在项目中配置已运行的sentinel-dashboard.jar的地址，将服务连接到dashboard）

 spring:
   cloud:
     sentinel:
       transport:
         dashboard: localhost:8080

3.访问微服务的任意endpoint（任意controller接口），触发sentinel监控

1.2流量控制

簇点链路：项目内的调用链路（eg.进入spring MVC调用controller，controller调用service，service调用mapper，这就是一个簇点链路）。

链路中被监控的每个接口就是一个资源。默认情况下sentinel会监控SpringMVC的每一个端点(Endpoint)，因此SpringMVC的每一个端点(Endpoint)就是调用链路中的一个资源。

流控、熔断都是针对簇点链路中的资源来设置的，可以点击对应资源后面的按钮来设置规则：

1.2.1 快速入门

假设限制order/{orderId}接口阈值5（实际应该根据JMeter等压力测试获取）

1.2.2 流控模式

在添加先流规则是，点击高级选项，可以选择三种流控模式：

直接：默认模式，统计当前资源的请求，触发阈值时对当前资源直接限流
关联：统计与当前资源相关的另一个资源，触发阈值时对当前资源限流
- 适用于两个竞争关系的资源，一个优先级高，一个优先级低
链路：统计从指定链路访问到本资源的请求，触发阈值时对指定链路限流
- 对访问来源进行控制

关联模式：

链路模式：

Sentinel默认只标记Controller中的方法为资源（只监控资源），如果要标记（监控）其他方法，需要使用@SentinelResource注解。eg.

 @SentinelResource("goods")
 public void queryGoods(){
     System.err.println("query goods");
 }

Sentinel默认会将Controller方法做context整合，导致链路模式的流控失效，需要修改application.yml，添加配置：

 spring:
   cloud:
     sentinel:
       web-context-unify: false # 关闭context整合

1.2.3 流控效果

流控效果是指请求达到流控阈值时应该采取的措施，包括三种：

快速失败：默认模式，达到阈值后，新的请求会被立即拒绝并抛出FlowException异常
warm up：预热模式，对超出阈值的请求同样是拒绝并抛出异常。但阈值会动态变化，从一个较小值逐渐增加到最大阈值
排队等待：让所有的请求按照先后次序排队执行，两个请求的间隔不能小于指定时长

流控效果-warm up

应对服务冷启动的一种方案（避免冷启动时高并发导致服务宕机）。请求阈值初始值是threshold/codeFactor，持续指定时长后，逐渐提高到threshold值。codeFactor默认值是3.

流控效果-排队等待

当请求超过QPS阈值时，排队等待让所有请求进入一个队列，按照阈值允许的时间间隔依次执行。后来的请求必须等待前面执行完成，如果请求预期的等待时间超出最大时长，则会被直接拒绝。

eg.QPS=5，即每200ms处理队列中的一个请求；timeout=2000，即预期等待超过2000ms的请求会被拒绝并抛出异常.

1.2.4 热点参数限流

与之前统计某个资源的所有请求是否超过QPS阈值不同，热点参数限流是分别统计参数值相同的请求来判断是否超过QPS阈值。

配置示例表示对资源”hot”的0号参数（第一个参数）做统计，每1秒相同参数值的请求不能超过5.

应用场景（GPT）：

防止资源占用不均衡：某些情况下某些参数值可能会导致更高的资源消耗
降低单一参数值的负载：例如秒杀活动，对某个商品ID限流可以防止系统过载
保护关键业务：部分参数值可能对应关键业务或敏感数据，对这些参数限流可以确保关键业务在高负载时仍能保持稳定
防止恶意攻击：例如攻击者可能会对某个用户id发起大量请求，试图耗尽系统资源
…

注意：

热点参数限流对默认的SpringMVC资源（eg.controller）无效，只有添加@SentinelResource注解才能生效。

JMeter压力测试结果

1.3隔离和降级

前面的手段都是基于服务正常，限流避免高并发引起故障来保护服务的。如果服务已经崩溃，则需要隔离和降级来减少服务崩溃影响。

1.3.1 FeignClient整合Sentinel

为什么要和Feign整合？

线程隔离和熔断降级本质上都是对客户端（服务调用方）的保护.

SpringCloud中，微服务调用都是通过Feign实现的，所以做客户端保护必须整合Feign和Sentinel.

步骤：

1.修改客户端（order-service）的application.yml文件，开启Feign的Sentinel功能

 feign:
   sentinel:
     enabled: true

2.编写FeignClient失败后的降级逻辑

方式1：FallbackClass，无法对远程调用的异常做处理
方式2：FallbackFactory，可以对远程调用的异常做处理（demo使用这种方式）

2.1 在feign-api项目中定义类，实现FallbackFactory

 @Slf4j
 public class UserClientFallbackFactory implements FallbackFactory<UserClient>{
     @Override
     public UserClient create(Throwable throwable){
         //创建UserClient接口实现类，实现其中方法，编写降级处理策略
         return new UserClient() {
             @Override
             public Result findById(Long id) {
                 log.error("查询用户异常",cause);
                 return new Result(Code.GET_ERR,new User());
             }
         };
     }
 }

2.2 在feign-api项目中的DefaultFeignConfiguration类中将UserFallbackFactory注册为一个Bean

 public class UserFeignConfig{
     @Bean
     public UserClientFallbackFactory userClientFallbackFactory(){
         return new UserClientFallbackFactory();
     }
 }

2.3 在feign-api项目中的UserClient接口中使用UserClientFallbackFactory

 // @FeignClient(value = "user-service",configuration = UserFeignConfig.class)
 @FeignClient(value = "user-service",fallbackFactory = UserClientFallbackFactory.class)
 public interface UserClient {
     @GetMapping("/user/{id}")
     Result findById(@PathVariable("id") Long id);
 }

如果使用spring-cloud-alibaba依赖版本是2022.0.0.0-RC1，需要在application.yml中开启懒加载，原因看这篇

1.3.2 线程隔离（舱壁模式）

线程隔离有两种实现方式：

	线程池隔离	信号量隔离（sentinel默认）
优点	支持主动超时支持异步调用 (因为额外开启了新线程）	轻量级，无额外开销
缺点	线程的额外开销比较大eg.CPU上下文切换	不支持主动超时不支持异步调用
适用场景	低扇出（依赖的服务少）	高频调用高扇出

JMeter测试效果

1.3.3 熔断降级

熔断降级是解决雪崩问题的重要手段，思路是由断路器统计服务调用的异常比例、慢请求比例，如果超出阈值则会熔断该服务，即拦截访问该服务的一切请求；而当服务恢复时，断路器会放行访问该服务的请求。

断路器的三个状态：

熔断策略-慢调用

短路器熔断策略有三种：慢调用、异常比例、异常数

慢调用：业务的响应时长（RT，Response Time）大于指定时长的请求认定为慢调用请求。在指定时间内，如果请求数量超过设定的最小数量，慢调用比例大于设定的阈值，则触发熔断。如下图：

熔断规则添加在被调用的服务.

熔断策略-异常比例、异常数

异常比例或异常数：统计指定时间内的调用，如果调用次数超过指定请求数，并且出现异常的比例达到设定的比例阈值（或超过指定异常数），则触发熔断。如下图：

1.4 授权规则

sentinel有以下规则：

1.4.1 授权规则

授权规则可以对调用方的来源做控制，有白名单和黑名单两种方式。

白名单：来源（origin）在白名单内的调用者允许访问
黑名单：来源（origin）在黑名单内的调用者不允许访问

网关也可以做身份认证，为什么还要sentinel授权再做身份认证？

如果用户规范访问微服务，则请求会先走网关，再被路由到微服务；但是如果微服务地址暴露，绕过网关直接访问服务，则只靠网关无法做身份验证。

Q：如何区分来源（origin）是网关还是浏览器？

A：Sentinel是通过RequestOriginParser的ParseOrigin获取请求的来源的。如果parseOrigin获取到的origin不同则说明来源不同。

 public interface RequestOriginParser{
     /**
      * 从请求request对象中获取origin，获取方式自定义
      */
     String parseOrigin(HttpServletRequest request);
 }

但是默认情况下无论请求来自于哪里，该方法的返回String永远都是”info”，无法区分来源，所以需要自定义该方法。

例如从request中获取一个名为origin的请求头，作为origin的值：

 @Component
 public class HeaderOriginParser implements RequestOriginParser{
     @Override
     public String parseOrigin(HttpServletRequest request){
         String origin = request.getHeader("origin");
         return StringUtils.isNullOrEmpty(origin)?"blank":origin;
     }
 }

但实际上请求头是没有这个字段的，可以使用网关的过滤器为请求添加该信息，如此就能区分网关来源和其他来源的请求了。

所以需要在gateway服务中，利用网关的全局过滤器添加名为gateway的origin请求头：

 spring:
   cloud:
     gateway:
       default-filters:
 #        - AddRequestHeader=MyHeaderKey, my header value
         - AddRequestHeader=origin,gateway

网关访问和直接访问效果：

1.4.2 自定义异常结果

上面被授权规则拦截的请求返回结果是”Blocked by Sentinel”，不够友好，我们可以自定义异常结果，处理限流、降级、授权拦截的异常，实现BlockExceptionHandler接口即可：

 public interface BlockExceptionHandler {
     /**
      * 处理请求被限流、降级、授权拦截时抛出的异常：BlockException
      */
     void handle(HttpServletRequest var1, HttpServletResponse var2, BlockException var3) throws Exception;
 }

 @Component
 public class SentinelBlockHandler implements BlockExceptionHandler {
     @Override
     public void handle(HttpServletRequest httpServletRequest, HttpServletResponse httpServletResponse, BlockException e) throws Exception {
         String msg = "unknown exception";
         int status = 429;
         if (e instanceof FlowException){
             msg = "请求被限流了";
         } else if (e instanceof DegradeException){
             msg = "请求被降级了";
         } else if (e instanceof ParamFlowException) {
             msg = "热点参数限流";
         } else if (e instanceof AuthorityException) {
             msg = "请求没有权限";
             status = 401;
         }
         httpServletResponse.setContentType("application/json;character=utf-8");
         httpServletResponse.setStatus(status);
         httpServletResponse.getWriter().println("{\"message\":\""+msg+"\",\"status\":"+status+"}");
     }
 }

BlockException包含多个子类，分别对应不同场景：

FlowException：限流异常
ParamFlowException：热点参数限流异常
DegradeException：降级异常
AuthorityException：授权规则异常
SystemBlockException：系统规则异常

添加不同限流规则，返回不同结果：

1.5 规则持久化

规则保存在内存，故服务重启后定义规则消失，实际生产环境需要做持久化。

1.5.1 模式

Sentinel的控制台规则管理有三种模式：

原始模式：Sentinel的默认模式，将规则保存在内存，重启服务会丢失
pull模式：控制台将配置的规则推送到Sentinel客户端，而客户端会将配置规则保存在本地文件或数据库中。以后会定期去本地文件或数据库中查询，更新本地规则。
push模式：控制台将配置规则推送到远程配置中心eg.Nacos，Sentinel哭护短监听Nacos，获取配置变更的推送消息，完成本地配置更新。（推荐）

push模式实现具体看这篇