Kubernetes吊舱在“Pod沙箱已更改,它将被杀死并重新创建”上失败

问题描述:

在Google Container Engine群集(GKE)上,有时会看到一个吊舱(或更多)未启动并正在查看其事件,我可以请参阅以下内容Kubernetes吊舱在“Pod沙箱已更改,它将被杀死并重新创建”上失败

Pod沙箱已更改,它将被杀死并重新创建。

如果我等待 - 它只是不断重新尝试。
如果我删除了pod,并允许它们通过部署的副本集重新创建,它将正常启动。

行为不一致。

Kubernetes版本1.7.6和1.7.8

任何想法?

+1

我也看到了这个,它每千次记录这些错误大概每秒一次。 – speedplane

+0

是的 - 这是我看到的。来自@googlecloud的任何人都可以在这里发表评论? –

我可以看到下面的消息张贴在Google Cloud Status Dashboard

“我们正在调查影响谷歌集装箱引擎(GKE)集群,其中后搬运工崩溃或重启的节点上,豆荚无法安排的问题

问题被认为是影响运行Kubernetes v1.6.11,v1.7.8和v1.8.1的所有GKE集群

我们的工程团队表明:如果节点上发布v1.6.11,请降级节点v1.6.10。如果节点在版本v1.7.8上,请将您的节点降级到v1.7.6 f节点在v1.8.1上,请将节点降级到v1.7.6。

工程团队还在this doc提供了替代解决方法。这些替代方法是适用于无法降级的节点的客户“

+0

有趣。很好的结果,虽然我也在1.7.6。我将尝试其中一种解决方法并更新! –

+0

当前状态 - 我尝试了Google的一种解决方法。它没有帮助。 我将群集节点降级到1.7.6(我已经有问题了)。似乎更好,但仍不确定。 –

+0

没有运气。仍然收到这些错误。谷歌正在修复,所以我希望这有助于。 –

我在GKE一个节点上受同一问题1.8.1集群(其他节点被罚款)我没有如下:。

  1. 确保您的节点池有一定的空间来接收计划受影响的节点上的所有豆荚有疑问时,增加节点池由1
  2. 流失影响节点以下this manual

    kubectl drain <node> 
    

    您可能会遇到有关本地存储的守护进程或豆荚警告,请继续操作。

  3. 在计算引擎中关闭受影响的节点。如果您的池大小小于池描述中指定的值,GKE应计划替换节点。

+0

这对坏节点来说是一个很好的解决方案,但我的问题似乎发生在多个节点上。它们并不总是在同一时间,所以感觉就像是一场幽灵般的狩猎。 –

+0

当然,具有多个问题节点的大型集群需要使用此解决方案进行过多的手动工作。我希望这个答案可以帮助那些碰巧找到这个线程的小群集。 –