当一个节点出现故障时,DSE opscenter显示集群写请求失败

问题描述:

我们有一个2节点cassandra集群,我们停止并重新启动其中一个节点。在这段时间间隔,在OpsCenter中的图表显示是这样的:当一个节点出现故障时,DSE opscenter显示集群写请求失败

opscenter

我们重新开始与橙色线的节点。我想知道为什么这个图中有一个突破。我问这是因为该应用工作正常,数据正在用蓝线写入节点,而另一个正在重新启动。

对此有两种可能的解释。

  1. OpsCenter存储正在监视的群集中的一些信息(默认情况下)。根据OpsCenter密钥空间的复制策略和复制因素,相关时间戳可能位于由下行节点管理的分区中。
  2. 与重新启动有关的事情可能会暂时中断监视和存储导致信息未被捕获的信息的代理组件。

1似乎最有可能是因为蓝色节点度量标准恢复,而橙色节点度量标准表明橙色节点仍然处于关闭状态。如果是1,那么数据将被传送到橙色节点(通过暗示的切换)并在该节点完成重新启动后变为可用。该图应该显示之后的更新值,但可能需要刷新UI。更多的节点会使这种失败的可能性降低,而更高的射频会使得它不太可能(几乎不可能)。

如果时间和刷新UI不能解决间隙,那么2是最有可能的罪魁祸首,并可能是指标记录机制中的错误。这是值得的报道。