记一次php-fpm http502的调优

最近,公司产线几乎每天都有短暂的http502错误,同时nginx会抛出大量的报错,报错内容是no live upstreams while connecting to upstream
网上查询,这种错误可能是php-fpm 进程已经全部被占用,没有空闲的进程来处理多余的请求,查了一下php-fpm的配置文件:
记一次php-fpm http502的调优
可以看到php-fpm是已静态方式启动,默认会启动100个进程处理客户端请求,而php服务产线为9台,而此时的请求量大约是400/s,远远小于配置的php-FPM进程数量,所以这个推测不行
同时怀疑是不是网络问题,通过grafana发现,公司两个数据中心间会发生网络丢包,而每次丢包的时间跟发生http502时间相同,跟踪了一段时间,每次发生http502时间都会跟随网络丢包
记一次php-fpm http502的调优
到这里基本可以看到,这起http502的问题是由于国内两大云服务商间的专线网络丢包,这个问题解决起来就比较麻烦,等领导裁定吧