如果点检查失败,Flink管道是否会失败?

问题描述:

据我所知,检查点失败应该被忽略,并重试可能更大的状态。我有这种情况如果点检查失败,Flink管道是否会失败?

  • HDFS进入安全模式b'coz的名称节点发出
  • 异常被抛出

    org.apache.hadoop.ipc.RemoteException(org.apache.hadoop。 ipc.StandbyException):操作类别WRITE在状态备用中不受支持。访问https://s.apache.org/sbnn-error ..................

    在org.apache.flink.runtime.fs.hdfs.HadoopFileSystem.mkdirs(HadoopFileSystem.java:453) 在org.apache.flink.core.fs.SafetyNetWrapperFileSystem.mkdirs(SafetyNetWrapperFileSystem.java:111) 在org.apache.flink.runtime.state.filesystem.FsCheckpointStreamFactory.createBasePath(FsCheckpointStreamFactory.java:132)

  • 的在hdfs问题得到解决后,管道在几次重启和检查点失败后回来。

我不会担心重启,但显然我失去了我的操作员状态。要么是我的卡夫卡消费者不断推进它在起点和下一个检查点失败(一分钟的价值)之间的偏移或者具有部分总计的运营商丢失。我有一个15分钟的密钥操作员计数窗口

我正在使用ROCKS DB,当然已启用检查点设置。因此

的问题是

  • 应该如果检查点未通过管道重新启动?
  • 为什么在重新启动时操作员状态没有重新创建?
  • 抛出异常的性质是否与这个b'coz中的任何一个暂停并从保存点恢复正常工作?尽管我非常确定,但操作符像Window默认的运算符是drfault,因此如果我有timeWindow(Time.of(window_size,TimeUnit.MINUTES))。reduce(new ReduceFunction(),new WindowFunction()) ,状态由flink管理?

这取决于您的程序风格。 假设从检查点函数获得构造后,您的程序可能正在运行。

如果你的写作程序没有检查点构造,它不会影响你的点子衬里。

进一步明确

https://ci.apache.org/projects/flink/flink-docs-release-1.3/internals/stream_checkpointing.html